Bewegungssteuerung zur Verbesserung der Erzeugung von komplexen Actionvideos

Motion Control for Enhanced Complex Action Video Generation

November 13, 2024
Autoren: Qiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
cs.AI

Zusammenfassung

Bestehende Text-zu-Video (T2V)-Modelle haben oft Schwierigkeiten, Videos mit ausreichend ausgeprägten oder komplexen Aktionen zu generieren. Eine Schlüsselbegrenzung liegt in der Unfähigkeit des Text-Prompts, komplexe Bewegungsdetails präzise zu vermitteln. Um dies zu lösen, schlagen wir ein neuartiges Framework namens MVideo vor, das darauf ausgelegt ist, Videos mit präzisen und fließenden Aktionen über lange Dauer zu produzieren. MVideo überwindet die Einschränkungen von Text-Prompts, indem es Maskensequenzen als zusätzliche Bewegungsbedingungseingabe integriert, um eine klarere und genauere Darstellung beabsichtigter Aktionen zu ermöglichen. Durch die Nutzung grundlegender Visionmodelle wie GroundingDINO und SAM2 generiert MVideo automatisch Maskensequenzen, was sowohl die Effizienz als auch die Robustheit verbessert. Unsere Ergebnisse zeigen, dass MVideo nach dem Training Text-Prompts effektiv mit Bewegungsbedingungen abstimmt, um Videos zu produzieren, die gleichzeitig beiden Kriterien gerecht werden. Dieser duale Steuermechanismus ermöglicht eine dynamischere Videogenerierung, indem Änderungen am Text-Prompt oder an der Bewegungsbedingung unabhängig voneinander oder gemeinsam vorgenommen werden können. Darüber hinaus unterstützt MVideo die Bearbeitung und Komposition von Bewegungsbedingungen, was die Generierung von Videos mit komplexeren Aktionen erleichtert. MVideo fördert somit die Bewegungsgenerierung in T2V und setzt einen starken Maßstab für eine verbesserte Darstellung von Aktionen in aktuellen Videodiffusionsmodellen. Unsere Projektseite ist unter https://mvideo-v1.github.io/ verfügbar.
English
Existing text-to-video (T2V) models often struggle with generating videos with sufficiently pronounced or complex actions. A key limitation lies in the text prompt's inability to precisely convey intricate motion details. To address this, we propose a novel framework, MVideo, designed to produce long-duration videos with precise, fluid actions. MVideo overcomes the limitations of text prompts by incorporating mask sequences as an additional motion condition input, providing a clearer, more accurate representation of intended actions. Leveraging foundational vision models such as GroundingDINO and SAM2, MVideo automatically generates mask sequences, enhancing both efficiency and robustness. Our results demonstrate that, after training, MVideo effectively aligns text prompts with motion conditions to produce videos that simultaneously meet both criteria. This dual control mechanism allows for more dynamic video generation by enabling alterations to either the text prompt or motion condition independently, or both in tandem. Furthermore, MVideo supports motion condition editing and composition, facilitating the generation of videos with more complex actions. MVideo thus advances T2V motion generation, setting a strong benchmark for improved action depiction in current video diffusion models. Our project page is available at https://mvideo-v1.github.io/.

Summary

AI-Generated Summary

PDF22November 14, 2024