Bewegingsbesturing voor verbeterde generatie van complexe actievideo's

Motion Control for Enhanced Complex Action Video Generation

November 13, 2024
Auteurs: Qiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
cs.AI

Samenvatting

Bestaande tekst-naar-video (T2V) modellen hebben vaak moeite met het genereren van video's met voldoende uitgesproken of complexe acties. Een belangrijke beperking ligt in het onvermogen van de tekstprompt om nauwkeurig ingewikkelde bewegingsdetails over te brengen. Om dit aan te pakken, stellen wij een nieuw raamwerk voor, MVideo, ontworpen om langdurige video's te produceren met precieze, vloeiende acties. MVideo overwint de beperkingen van tekstprompts door maskersequenties op te nemen als een aanvullende bewegingsconditie-input, wat zorgt voor een duidelijkere, nauwkeurigere representatie van beoogde acties. Door gebruik te maken van fundamentele visiemodellen zoals GroundingDINO en SAM2, genereert MVideo automatisch maskersequenties, wat zowel de efficiëntie als de robuustheid verbetert. Onze resultaten tonen aan dat MVideo na training effectief tekstprompts afstemt op bewegingscondities om video's te produceren die tegelijkertijd aan beide criteria voldoen. Dit dubbele controlemechanisme maakt een meer dynamische videoproductie mogelijk door aanpassingen mogelijk te maken aan zowel de tekstprompt als de bewegingsconditie onafhankelijk van elkaar, of beide tegelijk. Bovendien ondersteunt MVideo het bewerken en samenstellen van bewegingscondities, wat de generatie van video's met complexere acties vergemakkelijkt. MVideo bevordert zo de T2V-bewegingsgeneratie en stelt een sterke benchmark voor verbeterde actieafbeelding in huidige videodiffusiemodellen. Onze projectpagina is beschikbaar op https://mvideo-v1.github.io/.
English
Existing text-to-video (T2V) models often struggle with generating videos with sufficiently pronounced or complex actions. A key limitation lies in the text prompt's inability to precisely convey intricate motion details. To address this, we propose a novel framework, MVideo, designed to produce long-duration videos with precise, fluid actions. MVideo overcomes the limitations of text prompts by incorporating mask sequences as an additional motion condition input, providing a clearer, more accurate representation of intended actions. Leveraging foundational vision models such as GroundingDINO and SAM2, MVideo automatically generates mask sequences, enhancing both efficiency and robustness. Our results demonstrate that, after training, MVideo effectively aligns text prompts with motion conditions to produce videos that simultaneously meet both criteria. This dual control mechanism allows for more dynamic video generation by enabling alterations to either the text prompt or motion condition independently, or both in tandem. Furthermore, MVideo supports motion condition editing and composition, facilitating the generation of videos with more complex actions. MVideo thus advances T2V motion generation, setting a strong benchmark for improved action depiction in current video diffusion models. Our project page is available at https://mvideo-v1.github.io/.

Summary

AI-Generated Summary

PDF22November 14, 2024