ChatPaper.aiChatPaper

Mask^2DiT: Dual-Mask-basierter Diffusions-Transformer für die Erzeugung langer Videos mit mehreren Szenen

Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

March 25, 2025
Autoren: Tianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu, SiYu Zhou, Qian He, Hongtao Xie, Yongdong Zhang
cs.AI

Zusammenfassung

Sora hat das immense Potenzial der Diffusion Transformer (DiT)-Architektur bei der Generierung von Einzelszenen-Videos aufgezeigt. Die anspruchsvollere Aufgabe der Multi-Szenen-Videogenerierung, die breitere Anwendungsmöglichkeiten bietet, bleibt jedoch relativ unerforscht. Um diese Lücke zu schließen, schlagen wir Mask^2DiT vor, einen neuartigen Ansatz, der eine feinkörnige, eins-zu-eins-Zuordnung zwischen Videosegmenten und ihren entsprechenden Textannotationen herstellt. Konkret führen wir eine symmetrische binäre Maske in jeder Aufmerksamkeitsschicht innerhalb der DiT-Architektur ein, um sicherzustellen, dass jede Textannotation ausschließlich auf ihr jeweiliges Videosegment angewendet wird, während die zeitliche Kohärenz über visuelle Tokens hinweg erhalten bleibt. Dieser Aufmerksamkeitsmechanismus ermöglicht eine präzise segmentweise Text-zu-Bild-Zuordnung, wodurch die DiT-Architektur effektiv Videogenerierungsaufgaben mit einer festen Anzahl von Szenen bewältigen kann. Um die DiT-Architektur weiterhin mit der Fähigkeit auszustatten, zusätzliche Szenen basierend auf bestehenden zu generieren, integrieren wir eine segmentweise bedingte Maske, die jedes neu generierte Segment auf die vorhergehenden Videosegmente konditioniert und somit eine autoregressive Szenenerweiterung ermöglicht. Sowohl qualitative als auch quantitative Experimente bestätigen, dass Mask^2DiT hervorragend darin ist, die visuelle Konsistenz über Segmente hinweg aufrechtzuerhalten und gleichzeitig die semantische Ausrichtung zwischen jedem Segment und seiner entsprechenden Textbeschreibung sicherzustellen. Unsere Projektseite ist https://tianhao-qi.github.io/Mask2DiTProject.
English
Sora has unveiled the immense potential of the Diffusion Transformer (DiT) architecture in single-scene video generation. However, the more challenging task of multi-scene video generation, which offers broader applications, remains relatively underexplored. To bridge this gap, we propose Mask^2DiT, a novel approach that establishes fine-grained, one-to-one alignment between video segments and their corresponding text annotations. Specifically, we introduce a symmetric binary mask at each attention layer within the DiT architecture, ensuring that each text annotation applies exclusively to its respective video segment while preserving temporal coherence across visual tokens. This attention mechanism enables precise segment-level textual-to-visual alignment, allowing the DiT architecture to effectively handle video generation tasks with a fixed number of scenes. To further equip the DiT architecture with the ability to generate additional scenes based on existing ones, we incorporate a segment-level conditional mask, which conditions each newly generated segment on the preceding video segments, thereby enabling auto-regressive scene extension. Both qualitative and quantitative experiments confirm that Mask^2DiT excels in maintaining visual consistency across segments while ensuring semantic alignment between each segment and its corresponding text description. Our project page is https://tianhao-qi.github.io/Mask2DiTProject.

Summary

AI-Generated Summary

PDF32March 27, 2025