KMM: Schlüsselbildmaske Mamba für erweiterte Bewegungserzeugung
KMM: Key Frame Mask Mamba for Extended Motion Generation
November 10, 2024
Autoren: Zeyu Zhang, Hang Gao, Akide Liu, Qi Chen, Feng Chen, Yiran Wang, Danning Li, Hao Tang
cs.AI
Zusammenfassung
Die Erzeugung menschlicher Bewegungen ist ein hochmodernes Forschungsgebiet in der generativen Computer Vision mit vielversprechenden Anwendungen in der Videoproduktion, der Spieleentwicklung und der robotergestützten Manipulation. Die jüngste Mamba-Architektur zeigt vielversprechende Ergebnisse bei der effizienten Modellierung langer und komplexer Sequenzen, dennoch bleiben zwei bedeutende Herausforderungen bestehen: Erstens ist die direkte Anwendung von Mamba auf die Erzeugung erweiterter Bewegungen ineffektiv, da die begrenzte Kapazität des impliziten Gedächtnisses zu einem Gedächtnisverlust führt. Zweitens hat Mamba im Vergleich zu Transformers Schwierigkeiten mit multimodaler Fusion und fehlender Ausrichtung auf textuelle Abfragen, was oft zu Verwirrung bei Richtungen (links oder rechts) oder dem Auslassen von Teilen längerer Textabfragen führt. Um diesen Herausforderungen zu begegnen, präsentiert unser Paper drei wesentliche Beiträge: Erstens führen wir KMM ein, eine neuartige Architektur mit Key Frame Masking Modeling, die darauf abzielt, Mambas Fokus auf Schlüsselaktionen in Bewegungssegmenten zu verstärken. Dieser Ansatz löst das Problem des Gedächtnisverlusts und stellt eine wegweisende Methode zur Anpassung strategischer Rahmenmaskierung in SSMs dar. Darüber hinaus haben wir ein kontrastives Lernparadigma entwickelt, um das Problem der multimodalen Fusion in Mamba anzugehen und die Bewegungs-Text-Ausrichtung zu verbessern. Schließlich führten wir umfangreiche Experimente an dem Standarddatensatz BABEL durch, wobei wir eine Spitzenleistung erzielten und im Vergleich zu früheren Spitzenmethoden eine Reduzierung von mehr als 57% bei FID und 70% der Parameter erreichten. Siehe Projektwebsite: https://steve-zeyu-zhang.github.io/KMM
English
Human motion generation is a cut-edge area of research in generative computer
vision, with promising applications in video creation, game development, and
robotic manipulation. The recent Mamba architecture shows promising results in
efficiently modeling long and complex sequences, yet two significant challenges
remain: Firstly, directly applying Mamba to extended motion generation is
ineffective, as the limited capacity of the implicit memory leads to memory
decay. Secondly, Mamba struggles with multimodal fusion compared to
Transformers, and lack alignment with textual queries, often confusing
directions (left or right) or omitting parts of longer text queries. To address
these challenges, our paper presents three key contributions: Firstly, we
introduce KMM, a novel architecture featuring Key frame Masking Modeling,
designed to enhance Mamba's focus on key actions in motion segments. This
approach addresses the memory decay problem and represents a pioneering method
in customizing strategic frame-level masking in SSMs. Additionally, we designed
a contrastive learning paradigm for addressing the multimodal fusion problem in
Mamba and improving the motion-text alignment. Finally, we conducted extensive
experiments on the go-to dataset, BABEL, achieving state-of-the-art performance
with a reduction of more than 57% in FID and 70% parameters compared to
previous state-of-the-art methods. See project website:
https://steve-zeyu-zhang.github.io/KMMSummary
AI-Generated Summary