Motion Anything: Beliebiges zu Bewegungsgenerierung

Zusammenfassung

Die bedingte Bewegungsgenerierung wurde in der Computer Vision bereits umfassend untersucht, doch es bleiben zwei entscheidende Herausforderungen bestehen. Erstens: Obwohl maskierte autoregressive Methoden kürzlich diffusionsbasierte Ansätze übertroffen haben, fehlt es bestehenden Maskierungsmodellen an einem Mechanismus, um dynamische Frames und Körperteile basierend auf gegebenen Bedingungen zu priorisieren. Zweitens scheitern bestehende Methoden für verschiedene Konditionierungsmodalitäten oft daran, mehrere Modalitäten effektiv zu integrieren, was die Kontrolle und Kohärenz der generierten Bewegung einschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir Motion Anything vor, ein multimodales Bewegungsgenerierungsframework, das einen auf Aufmerksamkeit basierenden Maskierungsmodellierungsansatz einführt, der eine fein abgestimmte räumliche und zeitliche Kontrolle über Schlüsselbilder und Aktionen ermöglicht. Unser Modell kodiert multimodale Bedingungen, einschließlich Text und Musik, adaptiv und verbessert so die Steuerbarkeit. Zusätzlich führen wir Text-Music-Dance (TMD) ein, einen neuen Bewegungsdatensatz, der aus 2.153 Paaren von Text, Musik und Tanz besteht und damit doppelt so groß ist wie AIST++, wodurch eine kritische Lücke in der Community geschlossen wird. Umfangreiche Experimente zeigen, dass Motion Anything state-of-the-art-Methoden in mehreren Benchmarks übertrifft, mit einer 15%igen Verbesserung des FID auf HumanML3D und konsistenten Leistungssteigerungen auf AIST++ und TMD. Besuchen Sie unsere Projektwebsite https://steve-zeyu-zhang.github.io/MotionAnything.

English

Conditional motion generation has been extensively studied in computer vision, yet two critical challenges remain. First, while masked autoregressive methods have recently outperformed diffusion-based approaches, existing masking models lack a mechanism to prioritize dynamic frames and body parts based on given conditions. Second, existing methods for different conditioning modalities often fail to integrate multiple modalities effectively, limiting control and coherence in generated motion. To address these challenges, we propose Motion Anything, a multimodal motion generation framework that introduces an Attention-based Mask Modeling approach, enabling fine-grained spatial and temporal control over key frames and actions. Our model adaptively encodes multimodal conditions, including text and music, improving controllability. Additionally, we introduce Text-Music-Dance (TMD), a new motion dataset consisting of 2,153 pairs of text, music, and dance, making it twice the size of AIST++, thereby filling a critical gap in the community. Extensive experiments demonstrate that Motion Anything surpasses state-of-the-art methods across multiple benchmarks, achieving a 15% improvement in FID on HumanML3D and showing consistent performance gains on AIST++ and TMD. See our project website https://steve-zeyu-zhang.github.io/MotionAnything

Motion Anything: Beliebiges zu Bewegungsgenerierung

Motion Anything: Any to Motion Generation

Zusammenfassung

Summary

Support

Support