Contrôle de mouvement pour une génération améliorée de vidéos d'actions complexes
Motion Control for Enhanced Complex Action Video Generation
November 13, 2024
Auteurs: Qiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
cs.AI
Résumé
Les modèles de conversion texte-vidéo (T2V) existants ont souvent du mal à générer des vidéos avec des actions suffisamment prononcées ou complexes. Une limitation clé réside dans l'incapacité de l'indication textuelle à transmettre précisément les détails des mouvements complexes. Pour remédier à cela, nous proposons un cadre novateur, MVideo, conçu pour produire des vidéos de longue durée avec des actions précises et fluides. MVideo surmonte les limitations des indications textuelles en incorporant des séquences de masques en tant qu'entrée de condition de mouvement supplémentaire, offrant une représentation plus claire et plus précise des actions prévues. En tirant parti de modèles de vision fondamentaux tels que GroundingDINO et SAM2, MVideo génère automatiquement des séquences de masques, améliorant à la fois l'efficacité et la robustesse. Nos résultats montrent qu'après l'entraînement, MVideo aligne efficacement les indications textuelles avec les conditions de mouvement pour produire des vidéos répondant simultanément aux deux critères. Ce mécanisme de contrôle double permet une génération de vidéos plus dynamique en permettant des modifications soit de l'indication textuelle, soit de la condition de mouvement de manière indépendante, ou des deux en tandem. De plus, MVideo prend en charge l'édition et la composition des conditions de mouvement, facilitant la génération de vidéos avec des actions plus complexes. Ainsi, MVideo fait progresser la génération de mouvement T2V, établissant une référence solide pour une meilleure représentation des actions dans les modèles actuels de diffusion vidéo. Notre page de projet est disponible sur https://mvideo-v1.github.io/.
English
Existing text-to-video (T2V) models often struggle with generating videos
with sufficiently pronounced or complex actions. A key limitation lies in the
text prompt's inability to precisely convey intricate motion details. To
address this, we propose a novel framework, MVideo, designed to produce
long-duration videos with precise, fluid actions. MVideo overcomes the
limitations of text prompts by incorporating mask sequences as an additional
motion condition input, providing a clearer, more accurate representation of
intended actions. Leveraging foundational vision models such as GroundingDINO
and SAM2, MVideo automatically generates mask sequences, enhancing both
efficiency and robustness. Our results demonstrate that, after training, MVideo
effectively aligns text prompts with motion conditions to produce videos that
simultaneously meet both criteria. This dual control mechanism allows for more
dynamic video generation by enabling alterations to either the text prompt or
motion condition independently, or both in tandem. Furthermore, MVideo supports
motion condition editing and composition, facilitating the generation of videos
with more complex actions. MVideo thus advances T2V motion generation, setting
a strong benchmark for improved action depiction in current video diffusion
models. Our project page is available at https://mvideo-v1.github.io/.Summary
AI-Generated Summary