FullDiT: Multitask-Video-Generatives Grundmodell mit vollständiger Aufmerksamkeit

Zusammenfassung

Aktuelle generative Basismodelle für Videos konzentrieren sich hauptsächlich auf Text-zu-Video-Aufgaben und bieten nur begrenzte Kontrolle für die fein abgestimmte Erstellung von Videoinhalten. Obwohl Adapter-basierte Ansätze (z. B. ControlNet) zusätzliche Steuerungsmöglichkeiten mit minimalem Fine-Tuning ermöglichen, stoßen sie auf Herausforderungen bei der Integration mehrerer Bedingungen, darunter: Konflikte zwischen unabhängig trainierten Adaptern, Parameterredundanz, die zu erhöhten Rechenkosten führt, und suboptimale Leistung im Vergleich zum vollständigen Fine-Tuning. Um diese Herausforderungen zu bewältigen, stellen wir FullDiT vor, ein einheitliches Basismodell für die Videogenerierung, das mehrere Bedingungen nahtlos über vereinheitlichte Full-Attention-Mechanismen integriert. Durch die Fusion von Multi-Task-Bedingungen in eine einheitliche Sequenzdarstellung und die Nutzung der Langzeitkontext-Lernfähigkeit der vollständigen Selbstaufmerksamkeit, um die Dynamik der Bedingungen zu erfassen, reduziert FullDiT den Parameter-Overhead, vermeidet Konflikte zwischen Bedingungen und zeigt Skalierbarkeit und emergente Fähigkeiten. Wir führen außerdem FullBench für die Bewertung der Multi-Task-Videogenerierung ein. Experimente zeigen, dass FullDiT state-of-the-art Ergebnisse erzielt und die Wirksamkeit der Full-Attention bei komplexer Multi-Task-Videogenerierung unterstreicht.

English

Current video generative foundation models primarily focus on text-to-video tasks, providing limited control for fine-grained video content creation. Although adapter-based approaches (e.g., ControlNet) enable additional controls with minimal fine-tuning, they encounter challenges when integrating multiple conditions, including: branch conflicts between independently trained adapters, parameter redundancy leading to increased computational cost, and suboptimal performance compared to full fine-tuning. To address these challenges, we introduce FullDiT, a unified foundation model for video generation that seamlessly integrates multiple conditions via unified full-attention mechanisms. By fusing multi-task conditions into a unified sequence representation and leveraging the long-context learning ability of full self-attention to capture condition dynamics, FullDiT reduces parameter overhead, avoids conditions conflict, and shows scalability and emergent ability. We further introduce FullBench for multi-task video generation evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art results, highlighting the efficacy of full-attention in complex multi-task video generation.

FullDiT: Multitask-Video-Generatives Grundmodell mit vollständiger Aufmerksamkeit

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

Zusammenfassung

Summary

Support