MotionStreamer: Streaming von Bewegungsgenerierung durch diffusionsbasiertes autoregressives Modell im kausalen latenten Raum
MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space
March 19, 2025
Autoren: Lixing Xiao, Shunlin Lu, Huaijin Pi, Ke Fan, Liang Pan, Yueer Zhou, Ziyong Feng, Xiaowei Zhou, Sida Peng, Jingbo Wang
cs.AI
Zusammenfassung
Diese Arbeit befasst sich mit der Herausforderung der textbedingten Streaming-Bewegungsgenerierung, bei der die nächste menschliche Pose basierend auf variabler historischer Bewegungsdaten und eingehenden Texten vorhergesagt werden muss. Bestehende Methoden haben Schwierigkeiten, Streaming-Bewegungsgenerierung zu erreichen. Beispielsweise sind Diffusionsmodelle durch vordefinierte Bewegungsdauern eingeschränkt, während GPT-basierte Methoden unter verzögerten Reaktionen und Fehlerakkumulation aufgrund diskretisierter nicht-kausaler Tokenisierung leiden. Um diese Probleme zu lösen, schlagen wir MotionStreamer vor, ein neuartiges Framework, das einen kontinuierlichen kausalen latenten Raum in ein probabilistisches autoregressives Modell integriert. Die kontinuierlichen latenten Variablen mildern den Informationsverlust durch Diskretisierung und reduzieren effektiv die Fehlerakkumulation während der langfristigen autoregressiven Generierung. Darüber hinaus nutzt unser Modell durch die Herstellung zeitlicher kausaler Abhängigkeiten zwischen aktuellen und historischen Bewegungsdaten die verfügbaren Informationen vollständig, um eine präzise Online-Bewegungsdekodierung zu erreichen. Experimente zeigen, dass unsere Methode bestehende Ansätze übertrifft und gleichzeitig mehr Anwendungen bietet, darunter Mehrfachgenerierung, langfristige Generierung und dynamische Bewegungszusammensetzung. Projektseite: https://zju3dv.github.io/MotionStreamer/
English
This paper addresses the challenge of text-conditioned streaming motion
generation, which requires us to predict the next-step human pose based on
variable-length historical motions and incoming texts. Existing methods
struggle to achieve streaming motion generation, e.g., diffusion models are
constrained by pre-defined motion lengths, while GPT-based methods suffer from
delayed response and error accumulation problem due to discretized non-causal
tokenization. To solve these problems, we propose MotionStreamer, a novel
framework that incorporates a continuous causal latent space into a
probabilistic autoregressive model. The continuous latents mitigate information
loss caused by discretization and effectively reduce error accumulation during
long-term autoregressive generation. In addition, by establishing temporal
causal dependencies between current and historical motion latents, our model
fully utilizes the available information to achieve accurate online motion
decoding. Experiments show that our method outperforms existing approaches
while offering more applications, including multi-round generation, long-term
generation, and dynamic motion composition. Project Page:
https://zju3dv.github.io/MotionStreamer/Summary
AI-Generated Summary