ChatPaper.aiChatPaper

MagicComp: Trainingsfreie Zwei-Phasen-Verfeinerung für die kompositionelle Videogenerierung

MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation

March 18, 2025
Autoren: Hongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen
cs.AI

Zusammenfassung

Text-to-Video (T2V)-Generierung hat mit Diffusionsmodellen bedeutende Fortschritte gemacht. Dennoch haben bestehende Methoden weiterhin Schwierigkeiten, Attribute präzise zu verknüpfen, räumliche Beziehungen zu bestimmen und komplexe Interaktionen zwischen mehreren Subjekten zu erfassen. Um diese Einschränkungen zu überwinden, schlagen wir MagicComp vor, eine trainingsfreie Methode, die die kompositionelle T2V-Generierung durch eine zweiphasige Verfeinerung verbessert. Konkret: (1) Während der Konditionierungsphase führen wir die Semantic Anchor Disambiguation ein, die subjektspezifische Semantik verstärkt und Mehrdeutigkeiten zwischen Subjekten auflöst, indem schrittweise Richtungsvektoren semantischer Anker in die ursprüngliche Texteinbettung injiziert werden; (2) Während der Denoising-Phase schlagen wir Dynamic Layout Fusion Attention vor, die Grundierungs-Prioritäten und modelladaptive räumliche Wahrnehmung integriert, um Subjekte flexibel an ihre raumzeitlichen Regionen durch maskierte Aufmerksamkeitsmodulation zu binden. Darüber hinaus ist MagicComp ein modellagnostischer und vielseitiger Ansatz, der nahtlos in bestehende T2V-Architekturen integriert werden kann. Umfangreiche Experimente auf T2V-CompBench und VBench zeigen, dass MagicComp state-of-the-art Methoden übertrifft, was sein Potenzial für Anwendungen wie komplexe promptbasierte und trajektoriensteuerbare Videogenerierung unterstreicht. Projektseite: https://hong-yu-zhang.github.io/MagicComp-Page/.
English
Text-to-video (T2V) generation has made significant strides with diffusion models. However, existing methods still struggle with accurately binding attributes, determining spatial relationships, and capturing complex action interactions between multiple subjects. To address these limitations, we propose MagicComp, a training-free method that enhances compositional T2V generation through dual-phase refinement. Specifically, (1) During the Conditioning Stage: We introduce the Semantic Anchor Disambiguation to reinforces subject-specific semantics and resolve inter-subject ambiguity by progressively injecting the directional vectors of semantic anchors into original text embedding; (2) During the Denoising Stage: We propose Dynamic Layout Fusion Attention, which integrates grounding priors and model-adaptive spatial perception to flexibly bind subjects to their spatiotemporal regions through masked attention modulation. Furthermore, MagicComp is a model-agnostic and versatile approach, which can be seamlessly integrated into existing T2V architectures. Extensive experiments on T2V-CompBench and VBench demonstrate that MagicComp outperforms state-of-the-art methods, highlighting its potential for applications such as complex prompt-based and trajectory-controllable video generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.

Summary

AI-Generated Summary

PDF82March 25, 2025