VideoRepair: Miglioramento della Generazione Testo-Video tramite Valutazione dello Sfasamento e Raffinamento Localizzato
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement
November 22, 2024
Autori: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI
Abstract
I recenti modelli di diffusione testo-video (T2V) hanno dimostrato notevoli capacità di generazione in vari domini. Tuttavia, questi modelli spesso generano video con disallineamenti rispetto ai prompt di testo, specialmente quando i prompt descrivono scene complesse con molteplici oggetti e attributi. Per affrontare questo problema, presentiamo VideoRepair, un nuovo framework di perfezionamento video indipendente dal modello e privo di addestramento che identifica automaticamente disallineamenti dettagliati tra testo e video e genera feedback spaziali e testuali espliciti, consentendo a un modello di diffusione T2V di eseguire perfezionamenti mirati e localizzati. VideoRepair è composto da quattro fasi: (1) valutazione del video, in cui rileviamo i disallineamenti generando domande di valutazione dettagliate e rispondendo a tali domande con MLLM. (2) Pianificazione del perfezionamento, in cui identifichiamo gli oggetti generati correttamente e creiamo prompt localizzati per perfezionare altre aree nel video. Successivamente, (3) decomposizione della regione, in cui segmentiamo l'area generata correttamente utilizzando un modulo di ancoraggio combinato. Rigeneriamo il video regolando le regioni disallineate preservando le regioni corrette in (4) perfezionamento localizzato. Su due popolari benchmark di generazione video (EvalCrafter e T2V-CompBench), VideoRepair supera notevolmente i recenti baselines su vari metriche di allineamento testo-video. Forniamo un'analisi completa dei componenti di VideoRepair e esempi qualitativi.
English
Recent text-to-video (T2V) diffusion models have demonstrated impressive
generation capabilities across various domains. However, these models often
generate videos that have misalignments with text prompts, especially when the
prompts describe complex scenes with multiple objects and attributes. To
address this, we introduce VideoRepair, a novel model-agnostic, training-free
video refinement framework that automatically identifies fine-grained
text-video misalignments and generates explicit spatial and textual feedback,
enabling a T2V diffusion model to perform targeted, localized refinements.
VideoRepair consists of four stages: In (1) video evaluation, we detect
misalignments by generating fine-grained evaluation questions and answering
those questions with MLLM. In (2) refinement planning, we identify accurately
generated objects and then create localized prompts to refine other areas in
the video. Next, in (3) region decomposition, we segment the correctly
generated area using a combined grounding module. We regenerate the video by
adjusting the misaligned regions while preserving the correct regions in (4)
localized refinement. On two popular video generation benchmarks (EvalCrafter
and T2V-CompBench), VideoRepair substantially outperforms recent baselines
across various text-video alignment metrics. We provide a comprehensive
analysis of VideoRepair components and qualitative examples.Summary
AI-Generated Summary