FullDiT: Modello Fondazionale Generativo per Video Multi-Task con Attenzione Completa
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention
March 25, 2025
Autori: Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
cs.AI
Abstract
I modelli generativi di base per video attualmente si concentrano principalmente su compiti di testo-a-video, offrendo un controllo limitato per la creazione di contenuti video dettagliati. Sebbene approcci basati su adattatori (ad esempio, ControlNet) consentano controlli aggiuntivi con una minima messa a punto, incontrano sfide nell'integrazione di più condizioni, tra cui: conflitti tra rami di adattatori addestrati in modo indipendente, ridondanza dei parametri che porta a un aumento dei costi computazionali e prestazioni subottimali rispetto a una messa a punto completa. Per affrontare queste sfide, introduciamo FullDiT, un modello di base unificato per la generazione di video che integra perfettamente più condizioni attraverso meccanismi di attenzione completa unificati. Fondendo le condizioni multi-task in una rappresentazione di sequenza unificata e sfruttando la capacità di apprendimento a lungo contesto dell'attenzione completa per catturare le dinamiche delle condizioni, FullDiT riduce l'overhead dei parametri, evita conflitti tra condizioni e mostra scalabilità e capacità emergenti. Introduciamo inoltre FullBench per la valutazione della generazione video multi-task. Gli esperimenti dimostrano che FullDiT raggiunge risultati all'avanguardia, evidenziando l'efficacia dell'attenzione completa nella generazione video multi-task complessa.
English
Current video generative foundation models primarily focus on text-to-video
tasks, providing limited control for fine-grained video content creation.
Although adapter-based approaches (e.g., ControlNet) enable additional controls
with minimal fine-tuning, they encounter challenges when integrating multiple
conditions, including: branch conflicts between independently trained adapters,
parameter redundancy leading to increased computational cost, and suboptimal
performance compared to full fine-tuning. To address these challenges, we
introduce FullDiT, a unified foundation model for video generation that
seamlessly integrates multiple conditions via unified full-attention
mechanisms. By fusing multi-task conditions into a unified sequence
representation and leveraging the long-context learning ability of full
self-attention to capture condition dynamics, FullDiT reduces parameter
overhead, avoids conditions conflict, and shows scalability and emergent
ability. We further introduce FullBench for multi-task video generation
evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art
results, highlighting the efficacy of full-attention in complex multi-task
video generation.Summary
AI-Generated Summary