Mask^2DiT: Trasformatore di Diffusione a Doppia Maschera per la Generazione di Video Lunghi Multi-Scena
Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation
March 25, 2025
Autori: Tianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu, SiYu Zhou, Qian He, Hongtao Xie, Yongdong Zhang
cs.AI
Abstract
Sora ha rivelato l'enorme potenziale dell'architettura Diffusion Transformer (DiT) nella generazione di video a scena singola. Tuttavia, il compito più impegnativo della generazione di video multi-scena, che offre applicazioni più ampie, rimane relativamente poco esplorato. Per colmare questa lacuna, proponiamo Mask^2DiT, un approccio innovativo che stabilisce un allineamento granulare e uno-a-uno tra segmenti video e le relative annotazioni testuali. Nello specifico, introduciamo una maschera binaria simmetrica in ogni livello di attenzione all'interno dell'architettura DiT, garantendo che ogni annotazione testuale si applichi esclusivamente al rispettivo segmento video, preservando al contempo la coerenza temporale tra i token visivi. Questo meccanismo di attenzione consente un preciso allineamento testuale-visivo a livello di segmento, permettendo all'architettura DiT di gestire efficacemente compiti di generazione video con un numero fisso di scene. Per dotare ulteriormente l'architettura DiT della capacità di generare scene aggiuntive basandosi su quelle esistenti, incorporiamo una maschera condizionale a livello di segmento, che condiziona ogni nuovo segmento generato sui segmenti video precedenti, abilitando così l'estensione auto-regressiva delle scene. Sia gli esperimenti qualitativi che quantitativi confermano che Mask^2DiT eccelle nel mantenere la coerenza visiva tra i segmenti, assicurando al contempo l'allineamento semantico tra ogni segmento e la relativa descrizione testuale. La nostra pagina del progetto è https://tianhao-qi.github.io/Mask2DiTProject.
English
Sora has unveiled the immense potential of the Diffusion Transformer (DiT)
architecture in single-scene video generation. However, the more challenging
task of multi-scene video generation, which offers broader applications,
remains relatively underexplored. To bridge this gap, we propose Mask^2DiT, a
novel approach that establishes fine-grained, one-to-one alignment between
video segments and their corresponding text annotations. Specifically, we
introduce a symmetric binary mask at each attention layer within the DiT
architecture, ensuring that each text annotation applies exclusively to its
respective video segment while preserving temporal coherence across visual
tokens. This attention mechanism enables precise segment-level
textual-to-visual alignment, allowing the DiT architecture to effectively
handle video generation tasks with a fixed number of scenes. To further equip
the DiT architecture with the ability to generate additional scenes based on
existing ones, we incorporate a segment-level conditional mask, which
conditions each newly generated segment on the preceding video segments,
thereby enabling auto-regressive scene extension. Both qualitative and
quantitative experiments confirm that Mask^2DiT excels in maintaining visual
consistency across segments while ensuring semantic alignment between each
segment and its corresponding text description. Our project page is
https://tianhao-qi.github.io/Mask2DiTProject.Summary
AI-Generated Summary