MotionCLR : Génération de mouvement et édition sans entraînement via la compréhension des mécanismes d'attention
MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms
October 24, 2024
Auteurs: Ling-Hao Chen, Wenxun Dai, Xuan Ju, Shunlin Lu, Lei Zhang
cs.AI
Résumé
Cette recherche aborde le problème de l'édition interactive de la génération de mouvements humains. Les modèles de diffusion de mouvement précédents manquent d'une modélisation explicite de la correspondance texte-mouvement au niveau des mots et d'une bonne explicabilité, limitant ainsi leur capacité d'édition fine. Pour résoudre ce problème, nous proposons un modèle de diffusion de mouvement basé sur l'attention, nommé MotionCLR, avec une modélisation CLeaR des mécanismes d'attention. Techniquement, MotionCLR modélise les interactions intra-modalité et inter-modalité avec une auto-attention et une attention croisée, respectivement. Plus précisément, le mécanisme d'auto-attention vise à mesurer la similarité séquentielle entre les images et impacte l'ordre des caractéristiques de mouvement. En revanche, le mécanisme d'attention croisée vise à trouver la correspondance fine entre les séquences de mots et à activer les pas de temps correspondants dans la séquence de mouvement. Sur la base de ces propriétés clés, nous développons un ensemble polyvalent de méthodes d'édition de mouvement simples mais efficaces en manipulant les cartes d'attention, telles que l'accentuation ou la réduction du mouvement, le remplacement du mouvement sur place et la génération de mouvement basée sur des exemples, etc. Pour une vérification supplémentaire de l'explicabilité du mécanisme d'attention, nous explorons également le potentiel du décompte d'actions et de la capacité de génération de mouvement ancrée via les cartes d'attention. Nos résultats expérimentaux montrent que notre méthode bénéficie d'une bonne capacité de génération et d'édition avec une bonne explicabilité.
English
This research delves into the problem of interactive editing of human motion
generation. Previous motion diffusion models lack explicit modeling of the
word-level text-motion correspondence and good explainability, hence
restricting their fine-grained editing ability. To address this issue, we
propose an attention-based motion diffusion model, namely MotionCLR, with CLeaR
modeling of attention mechanisms. Technically, MotionCLR models the in-modality
and cross-modality interactions with self-attention and cross-attention,
respectively. More specifically, the self-attention mechanism aims to measure
the sequential similarity between frames and impacts the order of motion
features. By contrast, the cross-attention mechanism works to find the
fine-grained word-sequence correspondence and activate the corresponding
timesteps in the motion sequence. Based on these key properties, we develop a
versatile set of simple yet effective motion editing methods via manipulating
attention maps, such as motion (de-)emphasizing, in-place motion replacement,
and example-based motion generation, etc. For further verification of the
explainability of the attention mechanism, we additionally explore the
potential of action-counting and grounded motion generation ability via
attention maps. Our experimental results show that our method enjoys good
generation and editing ability with good explainability.Summary
AI-Generated Summary