Controllo del movimento per la generazione avanzata di video con azioni complesse

Abstract

I modelli esistenti di testo-a-video (T2V) spesso faticano a generare video con azioni sufficientemente pronunciate o complesse. Una limitazione chiave risiede nella incapacità del prompt di testo di trasmettere precisamente dettagli di movimento intricati. Per affrontare questo problema, proponiamo un nuovo framework, MVideo, progettato per produrre video di lunga durata con azioni precise e fluide. MVideo supera le limitazioni dei prompt di testo incorporando sequenze di maschere come input condizionale aggiuntivo sul movimento, fornendo una rappresentazione più chiara e accurata delle azioni intese. Sfruttando modelli visionari fondamentali come GroundingDINO e SAM2, MVideo genera automaticamente sequenze di maschere, migliorando sia l'efficienza che la robustezza. I nostri risultati dimostrano che, dopo l'addestramento, MVideo allinea efficacemente i prompt di testo con le condizioni di movimento per produrre video che soddisfano contemporaneamente entrambi i criteri. Questo meccanismo di controllo duale consente una generazione video più dinamica consentendo modifiche sia al prompt di testo che alla condizione di movimento in modo indipendente, o entrambi contemporaneamente. Inoltre, MVideo supporta la modifica e la composizione delle condizioni di movimento, facilitando la generazione di video con azioni più complesse. MVideo fa quindi progredire la generazione di movimento T2V, stabilendo un solido punto di riferimento per un'azione migliorata nella rappresentazione dei video attuali. La pagina del nostro progetto è disponibile su https://mvideo-v1.github.io/.

English

Existing text-to-video (T2V) models often struggle with generating videos with sufficiently pronounced or complex actions. A key limitation lies in the text prompt's inability to precisely convey intricate motion details. To address this, we propose a novel framework, MVideo, designed to produce long-duration videos with precise, fluid actions. MVideo overcomes the limitations of text prompts by incorporating mask sequences as an additional motion condition input, providing a clearer, more accurate representation of intended actions. Leveraging foundational vision models such as GroundingDINO and SAM2, MVideo automatically generates mask sequences, enhancing both efficiency and robustness. Our results demonstrate that, after training, MVideo effectively aligns text prompts with motion conditions to produce videos that simultaneously meet both criteria. This dual control mechanism allows for more dynamic video generation by enabling alterations to either the text prompt or motion condition independently, or both in tandem. Furthermore, MVideo supports motion condition editing and composition, facilitating the generation of videos with more complex actions. MVideo thus advances T2V motion generation, setting a strong benchmark for improved action depiction in current video diffusion models. Our project page is available at https://mvideo-v1.github.io/.

Controllo del movimento per la generazione avanzata di video con azioni complesse

Motion Control for Enhanced Complex Action Video Generation

Abstract

Summary

Support