KMM: Schlüsselbildmaske Mamba für erweiterte Bewegungserzeugung

KMM: Key Frame Mask Mamba for Extended Motion Generation

November 10, 2024
Autoren: Zeyu Zhang, Hang Gao, Akide Liu, Qi Chen, Feng Chen, Yiran Wang, Danning Li, Hao Tang
cs.AI

Zusammenfassung

Die Erzeugung menschlicher Bewegungen ist ein hochmodernes Forschungsgebiet in der generativen Computer Vision mit vielversprechenden Anwendungen in der Videoproduktion, der Spieleentwicklung und der robotergestützten Manipulation. Die jüngste Mamba-Architektur zeigt vielversprechende Ergebnisse bei der effizienten Modellierung langer und komplexer Sequenzen, dennoch bleiben zwei bedeutende Herausforderungen bestehen: Erstens ist die direkte Anwendung von Mamba auf die Erzeugung erweiterter Bewegungen ineffektiv, da die begrenzte Kapazität des impliziten Gedächtnisses zu einem Gedächtnisverlust führt. Zweitens hat Mamba im Vergleich zu Transformers Schwierigkeiten mit multimodaler Fusion und fehlender Ausrichtung auf textuelle Abfragen, was oft zu Verwirrung bei Richtungen (links oder rechts) oder dem Auslassen von Teilen längerer Textabfragen führt. Um diesen Herausforderungen zu begegnen, präsentiert unser Paper drei wesentliche Beiträge: Erstens führen wir KMM ein, eine neuartige Architektur mit Key Frame Masking Modeling, die darauf abzielt, Mambas Fokus auf Schlüsselaktionen in Bewegungssegmenten zu verstärken. Dieser Ansatz löst das Problem des Gedächtnisverlusts und stellt eine wegweisende Methode zur Anpassung strategischer Rahmenmaskierung in SSMs dar. Darüber hinaus haben wir ein kontrastives Lernparadigma entwickelt, um das Problem der multimodalen Fusion in Mamba anzugehen und die Bewegungs-Text-Ausrichtung zu verbessern. Schließlich führten wir umfangreiche Experimente an dem Standarddatensatz BABEL durch, wobei wir eine Spitzenleistung erzielten und im Vergleich zu früheren Spitzenmethoden eine Reduzierung von mehr als 57% bei FID und 70% der Parameter erreichten. Siehe Projektwebsite: https://steve-zeyu-zhang.github.io/KMM
English
Human motion generation is a cut-edge area of research in generative computer vision, with promising applications in video creation, game development, and robotic manipulation. The recent Mamba architecture shows promising results in efficiently modeling long and complex sequences, yet two significant challenges remain: Firstly, directly applying Mamba to extended motion generation is ineffective, as the limited capacity of the implicit memory leads to memory decay. Secondly, Mamba struggles with multimodal fusion compared to Transformers, and lack alignment with textual queries, often confusing directions (left or right) or omitting parts of longer text queries. To address these challenges, our paper presents three key contributions: Firstly, we introduce KMM, a novel architecture featuring Key frame Masking Modeling, designed to enhance Mamba's focus on key actions in motion segments. This approach addresses the memory decay problem and represents a pioneering method in customizing strategic frame-level masking in SSMs. Additionally, we designed a contrastive learning paradigm for addressing the multimodal fusion problem in Mamba and improving the motion-text alignment. Finally, we conducted extensive experiments on the go-to dataset, BABEL, achieving state-of-the-art performance with a reduction of more than 57% in FID and 70% parameters compared to previous state-of-the-art methods. See project website: https://steve-zeyu-zhang.github.io/KMM

Summary

AI-Generated Summary

PDF32November 12, 2024