Motion Anything: Beliebiges zu Bewegungsgenerierung
Motion Anything: Any to Motion Generation
March 10, 2025
Autoren: Zeyu Zhang, Yiran Wang, Wei Mao, Danning Li, Rui Zhao, Biao Wu, Zirui Song, Bohan Zhuang, Ian Reid, Richard Hartley
cs.AI
Zusammenfassung
Die bedingte Bewegungsgenerierung wurde in der Computer Vision bereits umfassend untersucht, doch es bleiben zwei entscheidende Herausforderungen bestehen. Erstens: Obwohl maskierte autoregressive Methoden kürzlich diffusionsbasierte Ansätze übertroffen haben, fehlt es bestehenden Maskierungsmodellen an einem Mechanismus, um dynamische Frames und Körperteile basierend auf gegebenen Bedingungen zu priorisieren. Zweitens scheitern bestehende Methoden für verschiedene Konditionierungsmodalitäten oft daran, mehrere Modalitäten effektiv zu integrieren, was die Kontrolle und Kohärenz der generierten Bewegung einschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir Motion Anything vor, ein multimodales Bewegungsgenerierungsframework, das einen auf Aufmerksamkeit basierenden Maskierungsmodellierungsansatz einführt, der eine fein abgestimmte räumliche und zeitliche Kontrolle über Schlüsselbilder und Aktionen ermöglicht. Unser Modell kodiert multimodale Bedingungen, einschließlich Text und Musik, adaptiv und verbessert so die Steuerbarkeit. Zusätzlich führen wir Text-Music-Dance (TMD) ein, einen neuen Bewegungsdatensatz, der aus 2.153 Paaren von Text, Musik und Tanz besteht und damit doppelt so groß ist wie AIST++, wodurch eine kritische Lücke in der Community geschlossen wird. Umfangreiche Experimente zeigen, dass Motion Anything state-of-the-art-Methoden in mehreren Benchmarks übertrifft, mit einer 15%igen Verbesserung des FID auf HumanML3D und konsistenten Leistungssteigerungen auf AIST++ und TMD. Besuchen Sie unsere Projektwebsite https://steve-zeyu-zhang.github.io/MotionAnything.
English
Conditional motion generation has been extensively studied in computer
vision, yet two critical challenges remain. First, while masked autoregressive
methods have recently outperformed diffusion-based approaches, existing masking
models lack a mechanism to prioritize dynamic frames and body parts based on
given conditions. Second, existing methods for different conditioning
modalities often fail to integrate multiple modalities effectively, limiting
control and coherence in generated motion. To address these challenges, we
propose Motion Anything, a multimodal motion generation framework that
introduces an Attention-based Mask Modeling approach, enabling fine-grained
spatial and temporal control over key frames and actions. Our model adaptively
encodes multimodal conditions, including text and music, improving
controllability. Additionally, we introduce Text-Music-Dance (TMD), a new
motion dataset consisting of 2,153 pairs of text, music, and dance, making it
twice the size of AIST++, thereby filling a critical gap in the community.
Extensive experiments demonstrate that Motion Anything surpasses
state-of-the-art methods across multiple benchmarks, achieving a 15%
improvement in FID on HumanML3D and showing consistent performance gains on
AIST++ and TMD. See our project website
https://steve-zeyu-zhang.github.io/MotionAnythingSummary
AI-Generated Summary