Bewegingsbesturing voor verbeterde generatie van complexe actievideo's
Motion Control for Enhanced Complex Action Video Generation
November 13, 2024
Auteurs: Qiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
cs.AI
Samenvatting
Bestaande tekst-naar-video (T2V) modellen hebben vaak moeite met het genereren van video's met voldoende uitgesproken of complexe acties. Een belangrijke beperking ligt in het onvermogen van de tekstprompt om nauwkeurig ingewikkelde bewegingsdetails over te brengen. Om dit aan te pakken, stellen wij een nieuw raamwerk voor, MVideo, ontworpen om langdurige video's te produceren met precieze, vloeiende acties. MVideo overwint de beperkingen van tekstprompts door maskersequenties op te nemen als een aanvullende bewegingsconditie-input, wat zorgt voor een duidelijkere, nauwkeurigere representatie van beoogde acties. Door gebruik te maken van fundamentele visiemodellen zoals GroundingDINO en SAM2, genereert MVideo automatisch maskersequenties, wat zowel de efficiëntie als de robuustheid verbetert. Onze resultaten tonen aan dat MVideo na training effectief tekstprompts afstemt op bewegingscondities om video's te produceren die tegelijkertijd aan beide criteria voldoen. Dit dubbele controlemechanisme maakt een meer dynamische videoproductie mogelijk door aanpassingen mogelijk te maken aan zowel de tekstprompt als de bewegingsconditie onafhankelijk van elkaar, of beide tegelijk. Bovendien ondersteunt MVideo het bewerken en samenstellen van bewegingscondities, wat de generatie van video's met complexere acties vergemakkelijkt. MVideo bevordert zo de T2V-bewegingsgeneratie en stelt een sterke benchmark voor verbeterde actieafbeelding in huidige videodiffusiemodellen. Onze projectpagina is beschikbaar op https://mvideo-v1.github.io/.
English
Existing text-to-video (T2V) models often struggle with generating videos
with sufficiently pronounced or complex actions. A key limitation lies in the
text prompt's inability to precisely convey intricate motion details. To
address this, we propose a novel framework, MVideo, designed to produce
long-duration videos with precise, fluid actions. MVideo overcomes the
limitations of text prompts by incorporating mask sequences as an additional
motion condition input, providing a clearer, more accurate representation of
intended actions. Leveraging foundational vision models such as GroundingDINO
and SAM2, MVideo automatically generates mask sequences, enhancing both
efficiency and robustness. Our results demonstrate that, after training, MVideo
effectively aligns text prompts with motion conditions to produce videos that
simultaneously meet both criteria. This dual control mechanism allows for more
dynamic video generation by enabling alterations to either the text prompt or
motion condition independently, or both in tandem. Furthermore, MVideo supports
motion condition editing and composition, facilitating the generation of videos
with more complex actions. MVideo thus advances T2V motion generation, setting
a strong benchmark for improved action depiction in current video diffusion
models. Our project page is available at https://mvideo-v1.github.io/.Summary
AI-Generated Summary