Guida senza addestramento nella generazione testo-video tramite pianificazione multimodale e inizializzazione strutturata del rumore
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
April 11, 2025
Autori: Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal
cs.AI
Abstract
I recenti progressi nei modelli di diffusione testo-video (T2V) hanno significativamente migliorato la qualità visiva dei video generati. Tuttavia, anche i modelli T2V più recenti trovano difficile seguire con precisione le descrizioni testuali, specialmente quando il prompt richiede un controllo accurato dei layout spaziali o delle traiettorie degli oggetti. Una recente linea di ricerca utilizza una guida basata sul layout per i modelli T2V che richiede un fine-tuning o una manipolazione iterativa della mappa di attenzione durante il tempo di inferenza. Ciò aumenta significativamente i requisiti di memoria, rendendo difficile adottare un grande modello T2V come backbone. Per affrontare questo problema, introduciamo Video-MSG, un metodo di guida senza necessità di training per la generazione T2V basato su pianificazione multimodale e inizializzazione strutturata del rumore. Video-MSG consiste di tre passaggi, nei primi due dei quali crea Video Sketch, un piano spaziotemporale dettagliato per il video finale, specificando sfondo, primo piano e traiettorie degli oggetti, sotto forma di bozze di frame video. Nell'ultimo passaggio, Video-MSG guida un modello di diffusione T2V a valle con Video Sketch attraverso l'inversione del rumore e il denoising. È importante notare che Video-MSG non richiede fine-tuning o manipolazione dell'attenzione con memoria aggiuntiva durante il tempo di inferenza, rendendo più semplice l'adozione di grandi modelli T2V. Video-MSG dimostra la sua efficacia nel migliorare l'allineamento al testo con più backbone T2V (VideoCrafter2 e CogVideoX-5B) su benchmark popolari per la generazione T2V (T2VCompBench e VBench). Forniamo studi di ablazione completi sul rapporto di inversione del rumore, diversi generatori di sfondo, rilevamento degli oggetti di sfondo e segmentazione degli oggetti in primo piano.
English
Recent advancements in text-to-video (T2V) diffusion models have
significantly enhanced the visual quality of the generated videos. However,
even recent T2V models find it challenging to follow text descriptions
accurately, especially when the prompt requires accurate control of spatial
layouts or object trajectories. A recent line of research uses layout guidance
for T2V models that require fine-tuning or iterative manipulation of the
attention map during inference time. This significantly increases the memory
requirement, making it difficult to adopt a large T2V model as a backbone. To
address this, we introduce Video-MSG, a training-free Guidance method for T2V
generation based on Multimodal planning and Structured noise initialization.
Video-MSG consists of three steps, where in the first two steps, Video-MSG
creates Video Sketch, a fine-grained spatio-temporal plan for the final video,
specifying background, foreground, and object trajectories, in the form of
draft video frames. In the last step, Video-MSG guides a downstream T2V
diffusion model with Video Sketch through noise inversion and denoising.
Notably, Video-MSG does not need fine-tuning or attention manipulation with
additional memory during inference time, making it easier to adopt large T2V
models. Video-MSG demonstrates its effectiveness in enhancing text alignment
with multiple T2V backbones (VideoCrafter2 and CogVideoX-5B) on popular T2V
generation benchmarks (T2VCompBench and VBench). We provide comprehensive
ablation studies about noise inversion ratio, different background generators,
background object detection, and foreground object segmentation.Summary
AI-Generated Summary