Bewegungssteuerung zur Verbesserung der Erzeugung von komplexen Actionvideos
Motion Control for Enhanced Complex Action Video Generation
November 13, 2024
Autoren: Qiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
cs.AI
Zusammenfassung
Bestehende Text-zu-Video (T2V)-Modelle haben oft Schwierigkeiten, Videos mit ausreichend ausgeprägten oder komplexen Aktionen zu generieren. Eine Schlüsselbegrenzung liegt in der Unfähigkeit des Text-Prompts, komplexe Bewegungsdetails präzise zu vermitteln. Um dies zu lösen, schlagen wir ein neuartiges Framework namens MVideo vor, das darauf ausgelegt ist, Videos mit präzisen und fließenden Aktionen über lange Dauer zu produzieren. MVideo überwindet die Einschränkungen von Text-Prompts, indem es Maskensequenzen als zusätzliche Bewegungsbedingungseingabe integriert, um eine klarere und genauere Darstellung beabsichtigter Aktionen zu ermöglichen. Durch die Nutzung grundlegender Visionmodelle wie GroundingDINO und SAM2 generiert MVideo automatisch Maskensequenzen, was sowohl die Effizienz als auch die Robustheit verbessert. Unsere Ergebnisse zeigen, dass MVideo nach dem Training Text-Prompts effektiv mit Bewegungsbedingungen abstimmt, um Videos zu produzieren, die gleichzeitig beiden Kriterien gerecht werden. Dieser duale Steuermechanismus ermöglicht eine dynamischere Videogenerierung, indem Änderungen am Text-Prompt oder an der Bewegungsbedingung unabhängig voneinander oder gemeinsam vorgenommen werden können. Darüber hinaus unterstützt MVideo die Bearbeitung und Komposition von Bewegungsbedingungen, was die Generierung von Videos mit komplexeren Aktionen erleichtert. MVideo fördert somit die Bewegungsgenerierung in T2V und setzt einen starken Maßstab für eine verbesserte Darstellung von Aktionen in aktuellen Videodiffusionsmodellen. Unsere Projektseite ist unter https://mvideo-v1.github.io/ verfügbar.
English
Existing text-to-video (T2V) models often struggle with generating videos
with sufficiently pronounced or complex actions. A key limitation lies in the
text prompt's inability to precisely convey intricate motion details. To
address this, we propose a novel framework, MVideo, designed to produce
long-duration videos with precise, fluid actions. MVideo overcomes the
limitations of text prompts by incorporating mask sequences as an additional
motion condition input, providing a clearer, more accurate representation of
intended actions. Leveraging foundational vision models such as GroundingDINO
and SAM2, MVideo automatically generates mask sequences, enhancing both
efficiency and robustness. Our results demonstrate that, after training, MVideo
effectively aligns text prompts with motion conditions to produce videos that
simultaneously meet both criteria. This dual control mechanism allows for more
dynamic video generation by enabling alterations to either the text prompt or
motion condition independently, or both in tandem. Furthermore, MVideo supports
motion condition editing and composition, facilitating the generation of videos
with more complex actions. MVideo thus advances T2V motion generation, setting
a strong benchmark for improved action depiction in current video diffusion
models. Our project page is available at https://mvideo-v1.github.io/.Summary
AI-Generated Summary