MagicComp: Affinamento in Doppia Fase Senza Addestramento per la Generazione Composizionale di Video
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation
March 18, 2025
Autori: Hongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen
cs.AI
Abstract
La generazione testo-video (T2V) ha compiuto progressi significativi grazie ai modelli di diffusione. Tuttavia, i metodi esistenti continuano a incontrare difficoltà nel legare accuratamente gli attributi, determinare le relazioni spaziali e catturare interazioni complesse tra più soggetti. Per affrontare queste limitazioni, proponiamo MagicComp, un metodo senza addestramento che migliora la generazione composizionale T2V attraverso un affinamento in due fasi. Nello specifico, (1) Durante la Fase di Condizionamento: Introduciamo il Disambiguamento degli Ancoraggi Semantici, che rafforza la semantica specifica dei soggetti e risolve l'ambiguità inter-soggetto iniettando progressivamente i vettori direzionali degli ancoraggi semantici nell'embedding testuale originale; (2) Durante la Fase di Denoising: Proponiamo l'Attenzione Dinamica di Fusione del Layout, che integra priorità di grounding e percezione spaziale adattiva al modello per legare flessibilmente i soggetti alle loro regioni spazio-temporali attraverso una modulazione dell'attenzione mascherata. Inoltre, MagicComp è un approccio versatile e indipendente dal modello, che può essere integrato senza soluzione di continuità nelle architetture T2V esistenti. Esperimenti estesi su T2V-CompBench e VBench dimostrano che MagicComp supera i metodi all'avanguardia, evidenziando il suo potenziale per applicazioni come la generazione di video basata su prompt complessi e controllabile tramite traiettorie. Pagina del progetto: https://hong-yu-zhang.github.io/MagicComp-Page/.
English
Text-to-video (T2V) generation has made significant strides with diffusion
models. However, existing methods still struggle with accurately binding
attributes, determining spatial relationships, and capturing complex action
interactions between multiple subjects. To address these limitations, we
propose MagicComp, a training-free method that enhances compositional T2V
generation through dual-phase refinement. Specifically, (1) During the
Conditioning Stage: We introduce the Semantic Anchor Disambiguation to
reinforces subject-specific semantics and resolve inter-subject ambiguity by
progressively injecting the directional vectors of semantic anchors into
original text embedding; (2) During the Denoising Stage: We propose Dynamic
Layout Fusion Attention, which integrates grounding priors and model-adaptive
spatial perception to flexibly bind subjects to their spatiotemporal regions
through masked attention modulation. Furthermore, MagicComp is a model-agnostic
and versatile approach, which can be seamlessly integrated into existing T2V
architectures. Extensive experiments on T2V-CompBench and VBench demonstrate
that MagicComp outperforms state-of-the-art methods, highlighting its potential
for applications such as complex prompt-based and trajectory-controllable video
generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.Summary
AI-Generated Summary