FullDiT: Multitask-Video-Generatives Grundmodell mit vollständiger Aufmerksamkeit
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention
March 25, 2025
Autoren: Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
cs.AI
Zusammenfassung
Aktuelle generative Basismodelle für Videos konzentrieren sich hauptsächlich auf Text-zu-Video-Aufgaben und bieten nur begrenzte Kontrolle für die fein abgestimmte Erstellung von Videoinhalten. Obwohl Adapter-basierte Ansätze (z. B. ControlNet) zusätzliche Steuerungsmöglichkeiten mit minimalem Fine-Tuning ermöglichen, stoßen sie auf Herausforderungen bei der Integration mehrerer Bedingungen, darunter: Konflikte zwischen unabhängig trainierten Adaptern, Parameterredundanz, die zu erhöhten Rechenkosten führt, und suboptimale Leistung im Vergleich zum vollständigen Fine-Tuning. Um diese Herausforderungen zu bewältigen, stellen wir FullDiT vor, ein einheitliches Basismodell für die Videogenerierung, das mehrere Bedingungen nahtlos über vereinheitlichte Full-Attention-Mechanismen integriert. Durch die Fusion von Multi-Task-Bedingungen in eine einheitliche Sequenzdarstellung und die Nutzung der Langzeitkontext-Lernfähigkeit der vollständigen Selbstaufmerksamkeit, um die Dynamik der Bedingungen zu erfassen, reduziert FullDiT den Parameter-Overhead, vermeidet Konflikte zwischen Bedingungen und zeigt Skalierbarkeit und emergente Fähigkeiten. Wir führen außerdem FullBench für die Bewertung der Multi-Task-Videogenerierung ein. Experimente zeigen, dass FullDiT state-of-the-art Ergebnisse erzielt und die Wirksamkeit der Full-Attention bei komplexer Multi-Task-Videogenerierung unterstreicht.
English
Current video generative foundation models primarily focus on text-to-video
tasks, providing limited control for fine-grained video content creation.
Although adapter-based approaches (e.g., ControlNet) enable additional controls
with minimal fine-tuning, they encounter challenges when integrating multiple
conditions, including: branch conflicts between independently trained adapters,
parameter redundancy leading to increased computational cost, and suboptimal
performance compared to full fine-tuning. To address these challenges, we
introduce FullDiT, a unified foundation model for video generation that
seamlessly integrates multiple conditions via unified full-attention
mechanisms. By fusing multi-task conditions into a unified sequence
representation and leveraging the long-context learning ability of full
self-attention to capture condition dynamics, FullDiT reduces parameter
overhead, avoids conditions conflict, and shows scalability and emergent
ability. We further introduce FullBench for multi-task video generation
evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art
results, highlighting the efficacy of full-attention in complex multi-task
video generation.Summary
AI-Generated Summary