Controllo del movimento per la generazione avanzata di video con azioni complesse
Motion Control for Enhanced Complex Action Video Generation
November 13, 2024
Autori: Qiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
cs.AI
Abstract
I modelli esistenti di testo-a-video (T2V) spesso faticano a generare video con azioni sufficientemente pronunciate o complesse. Una limitazione chiave risiede nella incapacità del prompt di testo di trasmettere precisamente dettagli di movimento intricati. Per affrontare questo problema, proponiamo un nuovo framework, MVideo, progettato per produrre video di lunga durata con azioni precise e fluide. MVideo supera le limitazioni dei prompt di testo incorporando sequenze di maschere come input condizionale aggiuntivo sul movimento, fornendo una rappresentazione più chiara e accurata delle azioni intese. Sfruttando modelli visionari fondamentali come GroundingDINO e SAM2, MVideo genera automaticamente sequenze di maschere, migliorando sia l'efficienza che la robustezza. I nostri risultati dimostrano che, dopo l'addestramento, MVideo allinea efficacemente i prompt di testo con le condizioni di movimento per produrre video che soddisfano contemporaneamente entrambi i criteri. Questo meccanismo di controllo duale consente una generazione video più dinamica consentendo modifiche sia al prompt di testo che alla condizione di movimento in modo indipendente, o entrambi contemporaneamente. Inoltre, MVideo supporta la modifica e la composizione delle condizioni di movimento, facilitando la generazione di video con azioni più complesse. MVideo fa quindi progredire la generazione di movimento T2V, stabilendo un solido punto di riferimento per un'azione migliorata nella rappresentazione dei video attuali. La pagina del nostro progetto è disponibile su https://mvideo-v1.github.io/.
English
Existing text-to-video (T2V) models often struggle with generating videos
with sufficiently pronounced or complex actions. A key limitation lies in the
text prompt's inability to precisely convey intricate motion details. To
address this, we propose a novel framework, MVideo, designed to produce
long-duration videos with precise, fluid actions. MVideo overcomes the
limitations of text prompts by incorporating mask sequences as an additional
motion condition input, providing a clearer, more accurate representation of
intended actions. Leveraging foundational vision models such as GroundingDINO
and SAM2, MVideo automatically generates mask sequences, enhancing both
efficiency and robustness. Our results demonstrate that, after training, MVideo
effectively aligns text prompts with motion conditions to produce videos that
simultaneously meet both criteria. This dual control mechanism allows for more
dynamic video generation by enabling alterations to either the text prompt or
motion condition independently, or both in tandem. Furthermore, MVideo supports
motion condition editing and composition, facilitating the generation of videos
with more complex actions. MVideo thus advances T2V motion generation, setting
a strong benchmark for improved action depiction in current video diffusion
models. Our project page is available at https://mvideo-v1.github.io/.Summary
AI-Generated Summary