DreamRunner: Generazione di video di narrazione dettagliata con Adattamento del Movimento potenziato dal Recupero
DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation
November 25, 2024
Autori: Zun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal
cs.AI
Abstract
La generazione di video per il racconto (SVG) è emersa di recente come un compito per creare video lunghi, multi-movimento, multi-scena che rappresentino in modo coerente la storia descritta nello script di testo in input. SVG ha un grande potenziale per la creazione di contenuti diversificati nei media e nell'intrattenimento; tuttavia, presenta anche significativi sfide: (1) gli oggetti devono mostrare una gamma di movimenti complessi e dettagliati, (2) diversi oggetti devono comparire in modo coerente tra le scene e (3) i soggetti possono richiedere molteplici movimenti con transizioni fluide all'interno di una singola scena. Per affrontare queste sfide, proponiamo DreamRunner, un nuovo metodo di generazione di video da storia: Innanzitutto, strutturiamo lo script di input utilizzando un grande modello di linguaggio (LLM) per facilitare sia la pianificazione delle scene a grana grossa che la pianificazione dettagliata a livello di oggetto e movimento. Successivamente, DreamRunner presenta un adattamento al test con recupero potenziato per catturare i priori di movimento desiderati per gli oggetti in ciascuna scena, supportando la personalizzazione del movimento in base ai video recuperati, facilitando così la generazione di nuovi video con movimenti complessi e scriptati. Infine, proponiamo un nuovo modulo di attenzione 3D basato su regioni spazio-temporali e iniezione di priori SR3AI per il vincolo del movimento dettagliato degli oggetti e il controllo semantico frame-by-frame. Confrontiamo DreamRunner con vari baselines di SVG, dimostrando prestazioni all'avanguardia nella coerenza dei personaggi, allineamento del testo e transizioni fluide. Inoltre, DreamRunner mostra una forte capacità di seguire condizioni dettagliate nella generazione compositiva di testo-a-video, superando significativamente i baselines su T2V-ComBench. Infine, convalidiamo la robusta capacità di DreamRunner di generare interazioni multi-oggetto con esempi qualitativi.
English
Storytelling video generation (SVG) has recently emerged as a task to create
long, multi-motion, multi-scene videos that consistently represent the story
described in the input text script. SVG holds great potential for diverse
content creation in media and entertainment; however, it also presents
significant challenges: (1) objects must exhibit a range of fine-grained,
complex motions, (2) multiple objects need to appear consistently across
scenes, and (3) subjects may require multiple motions with seamless transitions
within a single scene. To address these challenges, we propose DreamRunner, a
novel story-to-video generation method: First, we structure the input script
using a large language model (LLM) to facilitate both coarse-grained scene
planning as well as fine-grained object-level layout and motion planning. Next,
DreamRunner presents retrieval-augmented test-time adaptation to capture target
motion priors for objects in each scene, supporting diverse motion
customization based on retrieved videos, thus facilitating the generation of
new videos with complex, scripted motions. Lastly, we propose a novel
spatial-temporal region-based 3D attention and prior injection module SR3AI for
fine-grained object-motion binding and frame-by-frame semantic control. We
compare DreamRunner with various SVG baselines, demonstrating state-of-the-art
performance in character consistency, text alignment, and smooth transitions.
Additionally, DreamRunner exhibits strong fine-grained condition-following
ability in compositional text-to-video generation, significantly outperforming
baselines on T2V-ComBench. Finally, we validate DreamRunner's robust ability to
generate multi-object interactions with qualitative examples.Summary
AI-Generated Summary