MotionCLR: Generazione del Movimento e Modifica Senza Addestramento tramite la Comprensione dei Meccanismi di Attenzione
MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms
October 24, 2024
Autori: Ling-Hao Chen, Wenxun Dai, Xuan Ju, Shunlin Lu, Lei Zhang
cs.AI
Abstract
Questa ricerca approfondisce il problema della modifica interattiva della generazione del movimento umano. I modelli precedenti di diffusione del movimento mancano di una modellazione esplicita della corrispondenza testo-movimento a livello di parola e di una buona spiegabilità, limitando quindi la loro capacità di modifica dettagliata. Per affrontare questa problematica, proponiamo un modello di diffusione del movimento basato sull'attenzione, chiamato MotionCLR, con una modellazione CLeaR dei meccanismi di attenzione. Tecnicamente, MotionCLR modella le interazioni intra-modalità e inter-modalità con auto-attenzione e attenzione-incrociata, rispettivamente. Più specificamente, il meccanismo di auto-attenzione mira a misurare la similarità sequenziale tra i frame e influisce sull'ordine delle caratteristiche del movimento. Al contrario, il meccanismo di attenzione-incrociata lavora per trovare la corrispondenza dettagliata tra le sequenze di parole e attivare i tempi corrispondenti nella sequenza di movimento. Sulla base di queste proprietà chiave, sviluppiamo un insieme versatile di metodi di modifica del movimento semplici ma efficaci tramite la manipolazione delle mappe di attenzione, come l'emfasizzazione o smorzamento del movimento, la sostituzione del movimento sul posto e la generazione del movimento basata su esempi, ecc. Per ulteriore verifica della spiegabilità del meccanismo di attenzione, esploriamo inoltre il potenziale del conteggio delle azioni e della capacità di generazione del movimento basata su fondamenti tramite le mappe di attenzione. I nostri risultati sperimentali mostrano che il nostro metodo gode di una buona capacità di generazione e modifica con una buona spiegabilità.
English
This research delves into the problem of interactive editing of human motion
generation. Previous motion diffusion models lack explicit modeling of the
word-level text-motion correspondence and good explainability, hence
restricting their fine-grained editing ability. To address this issue, we
propose an attention-based motion diffusion model, namely MotionCLR, with CLeaR
modeling of attention mechanisms. Technically, MotionCLR models the in-modality
and cross-modality interactions with self-attention and cross-attention,
respectively. More specifically, the self-attention mechanism aims to measure
the sequential similarity between frames and impacts the order of motion
features. By contrast, the cross-attention mechanism works to find the
fine-grained word-sequence correspondence and activate the corresponding
timesteps in the motion sequence. Based on these key properties, we develop a
versatile set of simple yet effective motion editing methods via manipulating
attention maps, such as motion (de-)emphasizing, in-place motion replacement,
and example-based motion generation, etc. For further verification of the
explainability of the attention mechanism, we additionally explore the
potential of action-counting and grounded motion generation ability via
attention maps. Our experimental results show that our method enjoys good
generation and editing ability with good explainability.Summary
AI-Generated Summary