MotionCLR: Bewegingsgeneratie en trainingvrij bewerken via begrip van aandachtsmechanismen

Samenvatting

Dit onderzoek richt zich op het probleem van interactieve bewerking van menselijke bewegingsgeneratie. Eerdere bewegingsdiffusiemodellen missen expliciete modellering van de tekst-bewegingscorrespondentie op woordniveau en goede verklaarbaarheid, waardoor hun fijnmazige bewerkingsmogelijkheden beperkt zijn. Om dit probleem aan te pakken, stellen we een op aandacht gebaseerd bewegingsdiffusiemodel voor, genaamd MotionCLR, met CLeaR modellering van aandachtsmechanismen. Technisch gezien modelleert MotionCLR de interacties binnen modaliteiten en tussen modaliteiten met zelfaandacht en kruisaandacht, respectievelijk. Meer specifiek heeft het zelfaandachtsmechanisme tot doel de sequentiële gelijkenis tussen frames te meten en beïnvloedt het de volgorde van bewegingskenmerken. Daarentegen werkt het kruisaandachtsmechanisme om de fijnmazige woordvolgorde-correspondentie te vinden en activeert het de overeenkomstige tijdstappen in de bewegingssequentie. Op basis van deze belangrijke eigenschappen ontwikkelen we een veelzijdige set eenvoudige maar effectieve bewerkingsmethoden voor beweging door aandachtskaarten te manipuleren, zoals beweging benadrukken of verminderen, beweging ter plaatse vervangen en op voorbeelden gebaseerde bewegingsgeneratie, enzovoort. Voor verdere verificatie van de verklaarbaarheid van het aandachtsmechanisme verkennen we bovendien het potentieel van actietelling en de mogelijkheid van op beweging gebaseerde grondige generatie via aandachtskaarten. Onze experimentele resultaten tonen aan dat onze methode geniet van goede generatie- en bewerkingsmogelijkheden met goede verklaarbaarheid.

English

This research delves into the problem of interactive editing of human motion generation. Previous motion diffusion models lack explicit modeling of the word-level text-motion correspondence and good explainability, hence restricting their fine-grained editing ability. To address this issue, we propose an attention-based motion diffusion model, namely MotionCLR, with CLeaR modeling of attention mechanisms. Technically, MotionCLR models the in-modality and cross-modality interactions with self-attention and cross-attention, respectively. More specifically, the self-attention mechanism aims to measure the sequential similarity between frames and impacts the order of motion features. By contrast, the cross-attention mechanism works to find the fine-grained word-sequence correspondence and activate the corresponding timesteps in the motion sequence. Based on these key properties, we develop a versatile set of simple yet effective motion editing methods via manipulating attention maps, such as motion (de-)emphasizing, in-place motion replacement, and example-based motion generation, etc. For further verification of the explainability of the attention mechanism, we additionally explore the potential of action-counting and grounded motion generation ability via attention maps. Our experimental results show that our method enjoys good generation and editing ability with good explainability.

MotionCLR: Bewegingsgeneratie en trainingvrij bewerken via begrip van aandachtsmechanismen

MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms

Samenvatting

Support