MagicComp: Affinamento in Doppia Fase Senza Addestramento per la Generazione Composizionale di Video

Abstract

La generazione testo-video (T2V) ha compiuto progressi significativi grazie ai modelli di diffusione. Tuttavia, i metodi esistenti continuano a incontrare difficoltà nel legare accuratamente gli attributi, determinare le relazioni spaziali e catturare interazioni complesse tra più soggetti. Per affrontare queste limitazioni, proponiamo MagicComp, un metodo senza addestramento che migliora la generazione composizionale T2V attraverso un affinamento in due fasi. Nello specifico, (1) Durante la Fase di Condizionamento: Introduciamo il Disambiguamento degli Ancoraggi Semantici, che rafforza la semantica specifica dei soggetti e risolve l'ambiguità inter-soggetto iniettando progressivamente i vettori direzionali degli ancoraggi semantici nell'embedding testuale originale; (2) Durante la Fase di Denoising: Proponiamo l'Attenzione Dinamica di Fusione del Layout, che integra priorità di grounding e percezione spaziale adattiva al modello per legare flessibilmente i soggetti alle loro regioni spazio-temporali attraverso una modulazione dell'attenzione mascherata. Inoltre, MagicComp è un approccio versatile e indipendente dal modello, che può essere integrato senza soluzione di continuità nelle architetture T2V esistenti. Esperimenti estesi su T2V-CompBench e VBench dimostrano che MagicComp supera i metodi all'avanguardia, evidenziando il suo potenziale per applicazioni come la generazione di video basata su prompt complessi e controllabile tramite traiettorie. Pagina del progetto: https://hong-yu-zhang.github.io/MagicComp-Page/.

English

Text-to-video (T2V) generation has made significant strides with diffusion models. However, existing methods still struggle with accurately binding attributes, determining spatial relationships, and capturing complex action interactions between multiple subjects. To address these limitations, we propose MagicComp, a training-free method that enhances compositional T2V generation through dual-phase refinement. Specifically, (1) During the Conditioning Stage: We introduce the Semantic Anchor Disambiguation to reinforces subject-specific semantics and resolve inter-subject ambiguity by progressively injecting the directional vectors of semantic anchors into original text embedding; (2) During the Denoising Stage: We propose Dynamic Layout Fusion Attention, which integrates grounding priors and model-adaptive spatial perception to flexibly bind subjects to their spatiotemporal regions through masked attention modulation. Furthermore, MagicComp is a model-agnostic and versatile approach, which can be seamlessly integrated into existing T2V architectures. Extensive experiments on T2V-CompBench and VBench demonstrate that MagicComp outperforms state-of-the-art methods, highlighting its potential for applications such as complex prompt-based and trajectory-controllable video generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.

MagicComp: Affinamento in Doppia Fase Senza Addestramento per la Generazione Composizionale di Video

MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation

Abstract

Summary

Support

Support