Contrôle de mouvement pour une génération améliorée de vidéos d'actions complexes

Motion Control for Enhanced Complex Action Video Generation

November 13, 2024
Auteurs: Qiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
cs.AI

Résumé

Les modèles de conversion texte-vidéo (T2V) existants ont souvent du mal à générer des vidéos avec des actions suffisamment prononcées ou complexes. Une limitation clé réside dans l'incapacité de l'indication textuelle à transmettre précisément les détails des mouvements complexes. Pour remédier à cela, nous proposons un cadre novateur, MVideo, conçu pour produire des vidéos de longue durée avec des actions précises et fluides. MVideo surmonte les limitations des indications textuelles en incorporant des séquences de masques en tant qu'entrée de condition de mouvement supplémentaire, offrant une représentation plus claire et plus précise des actions prévues. En tirant parti de modèles de vision fondamentaux tels que GroundingDINO et SAM2, MVideo génère automatiquement des séquences de masques, améliorant à la fois l'efficacité et la robustesse. Nos résultats montrent qu'après l'entraînement, MVideo aligne efficacement les indications textuelles avec les conditions de mouvement pour produire des vidéos répondant simultanément aux deux critères. Ce mécanisme de contrôle double permet une génération de vidéos plus dynamique en permettant des modifications soit de l'indication textuelle, soit de la condition de mouvement de manière indépendante, ou des deux en tandem. De plus, MVideo prend en charge l'édition et la composition des conditions de mouvement, facilitant la génération de vidéos avec des actions plus complexes. Ainsi, MVideo fait progresser la génération de mouvement T2V, établissant une référence solide pour une meilleure représentation des actions dans les modèles actuels de diffusion vidéo. Notre page de projet est disponible sur https://mvideo-v1.github.io/.
English
Existing text-to-video (T2V) models often struggle with generating videos with sufficiently pronounced or complex actions. A key limitation lies in the text prompt's inability to precisely convey intricate motion details. To address this, we propose a novel framework, MVideo, designed to produce long-duration videos with precise, fluid actions. MVideo overcomes the limitations of text prompts by incorporating mask sequences as an additional motion condition input, providing a clearer, more accurate representation of intended actions. Leveraging foundational vision models such as GroundingDINO and SAM2, MVideo automatically generates mask sequences, enhancing both efficiency and robustness. Our results demonstrate that, after training, MVideo effectively aligns text prompts with motion conditions to produce videos that simultaneously meet both criteria. This dual control mechanism allows for more dynamic video generation by enabling alterations to either the text prompt or motion condition independently, or both in tandem. Furthermore, MVideo supports motion condition editing and composition, facilitating the generation of videos with more complex actions. MVideo thus advances T2V motion generation, setting a strong benchmark for improved action depiction in current video diffusion models. Our project page is available at https://mvideo-v1.github.io/.

Summary

AI-Generated Summary

PDF22November 14, 2024