MotionCLR: Bewegungserzeugung und Training-freie Bearbeitung durch Verständnis von Aufmerksamkeitsmechanismen
MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms
October 24, 2024
Autoren: Ling-Hao Chen, Wenxun Dai, Xuan Ju, Shunlin Lu, Lei Zhang
cs.AI
Zusammenfassung
Diese Forschung beschäftigt sich mit dem Problem der interaktiven Bearbeitung der Generierung menschlicher Bewegungen. Bisherige Bewegungsdiffusionsmodelle vernachlässigen die explizite Modellierung der Text-Bewegungs-Korrespondenz auf Wortebene und bieten keine gute Erklärbarkeit, was ihre fein abgestimmte Bearbeitungsfähigkeit einschränkt. Um dieses Problem anzugehen, schlagen wir ein auf Aufmerksamkeit basierendes Bewegungsdiffusionsmodell namens MotionCLR vor, mit CLeaR-Modellierung von Aufmerksamkeitsmechanismen. Technisch gesehen modelliert MotionCLR die In-Modalitäts- und Kreuz-Modalitäts-Interaktionen mit Selbst-Aufmerksamkeit und Kreuz-Aufmerksamkeit. Genauer gesagt zielt der Selbst-Aufmerksamkeitsmechanismus darauf ab, die sequenzielle Ähnlichkeit zwischen Frames zu messen und beeinflusst die Reihenfolge der Bewegungsmerkmale. Im Gegensatz dazu arbeitet der Kreuz-Aufmerksamkeitsmechanismus daran, die fein abgestimmte Wortfolge-Korrespondenz zu finden und die entsprechenden Zeitschritte in der Bewegungssequenz zu aktivieren. Basierend auf diesen Schlüsseleigenschaften entwickeln wir eine vielseitige Reihe einfacher, aber effektiver Bewegungsbearbeitungsmethoden durch Manipulation von Aufmerksamkeitskarten, wie Bewegungsbetonung oder -abschwächung, Bewegungsaustausch am gleichen Ort und beispielbasierte Bewegungsgenerierung usw. Zur weiteren Überprüfung der Erklärbarkeit des Aufmerksamkeitsmechanismus erkunden wir zusätzlich das Potenzial der Aktionszählung und der fundierten Bewegungsgenerierungsfähigkeit über Aufmerksamkeitskarten. Unsere experimentellen Ergebnisse zeigen, dass unsere Methode über eine gute Generierungs- und Bearbeitungsfähigkeit mit guter Erklärbarkeit verfügt.
English
This research delves into the problem of interactive editing of human motion
generation. Previous motion diffusion models lack explicit modeling of the
word-level text-motion correspondence and good explainability, hence
restricting their fine-grained editing ability. To address this issue, we
propose an attention-based motion diffusion model, namely MotionCLR, with CLeaR
modeling of attention mechanisms. Technically, MotionCLR models the in-modality
and cross-modality interactions with self-attention and cross-attention,
respectively. More specifically, the self-attention mechanism aims to measure
the sequential similarity between frames and impacts the order of motion
features. By contrast, the cross-attention mechanism works to find the
fine-grained word-sequence correspondence and activate the corresponding
timesteps in the motion sequence. Based on these key properties, we develop a
versatile set of simple yet effective motion editing methods via manipulating
attention maps, such as motion (de-)emphasizing, in-place motion replacement,
and example-based motion generation, etc. For further verification of the
explainability of the attention mechanism, we additionally explore the
potential of action-counting and grounded motion generation ability via
attention maps. Our experimental results show that our method enjoys good
generation and editing ability with good explainability.Summary
AI-Generated Summary