Langzeitkontextoptimierung für die Videogenerierung
Long Context Tuning for Video Generation
March 13, 2025
Autoren: Yuwei Guo, Ceyuan Yang, Ziyan Yang, Zhibei Ma, Zhijie Lin, Zhenheng Yang, Dahua Lin, Lu Jiang
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Videogenerierung ermöglichen die Erstellung realistischer, minutenlanger Einzelaufnahmen mit skalierbaren Diffusions-Transformatoren. Allerdings erfordern narrative Videos in der realen Welt mehrschüssige Szenen mit visueller und dynamischer Konsistenz über die Aufnahmen hinweg. In dieser Arbeit stellen wir Long Context Tuning (LCT) vor, ein Trainingsparadigma, das das Kontextfenster vortrainierter Einzelaufnahme-Videodiffusionsmodelle erweitert, um Szenenkonsistenz direkt aus den Daten zu lernen. Unser Ansatz erweitert vollständige Aufmerksamkeitsmechanismen von einzelnen Aufnahmen auf alle Aufnahmen innerhalb einer Szene, integriert verschachtelte 3D-Positions-Einbettungen und eine asynchrone Rauschstrategie, wodurch sowohl gemeinsame als auch autoregressive Aufnahmegenerierung ohne zusätzliche Parameter ermöglicht wird. Modelle mit bidirektionaler Aufmerksamkeit nach LCT können weiter mit kontextkausaler Aufmerksamkeit feinabgestimmt werden, was eine effiziente autoregressive Generierung mit KV-Cache ermöglicht. Experimente zeigen, dass Einzelaufnahme-Modelle nach LCT kohärente mehrschüssige Szenen erzeugen können und aufkommende Fähigkeiten wie kompositionelle Generierung und interaktive Aufnahmenerweiterung aufweisen, was den Weg für praktischere visuelle Inhaltserstellung ebnet. Weitere Details finden Sie unter https://guoyww.github.io/projects/long-context-video/.
English
Recent advances in video generation can produce realistic, minute-long
single-shot videos with scalable diffusion transformers. However, real-world
narrative videos require multi-shot scenes with visual and dynamic consistency
across shots. In this work, we introduce Long Context Tuning (LCT), a training
paradigm that expands the context window of pre-trained single-shot video
diffusion models to learn scene-level consistency directly from data. Our
method expands full attention mechanisms from individual shots to encompass all
shots within a scene, incorporating interleaved 3D position embedding and an
asynchronous noise strategy, enabling both joint and auto-regressive shot
generation without additional parameters. Models with bidirectional attention
after LCT can further be fine-tuned with context-causal attention, facilitating
auto-regressive generation with efficient KV-cache. Experiments demonstrate
single-shot models after LCT can produce coherent multi-shot scenes and exhibit
emerging capabilities, including compositional generation and interactive shot
extension, paving the way for more practical visual content creation. See
https://guoyww.github.io/projects/long-context-video/ for more details.Summary
AI-Generated Summary