Autoregressive Videogenerierung ohne Vektorquantisierung
Autoregressive Video Generation without Vector Quantization
December 18, 2024
Autoren: Haoge Deng, Ting Pan, Haiwen Diao, Zhengxiong Luo, Yufeng Cui, Huchuan Lu, Shiguang Shan, Yonggang Qi, Xinlong Wang
cs.AI
Zusammenfassung
Dieses Paper präsentiert einen neuartigen Ansatz, der die autoregressive Generierung von Videos mit hoher Effizienz ermöglicht. Wir schlagen vor, das Problem der Video-Generierung als nicht-quantisierte autoregressive Modellierung von zeitlicher Frame-für-Frame-Vorhersage und räumlicher Set-für-Set-Vorhersage umzuformulieren. Im Gegensatz zur raster-scan Vorhersage in früheren autoregressiven Modellen oder der gemeinsamen Verteilungsmodellierung von Tokens fester Länge in Diffusionsmodellen behält unser Ansatz die kausale Eigenschaft von GPT-Modellen für flexible In-Context-Fähigkeiten bei, während er die bidirektionale Modellierung innerhalb einzelner Frames für Effizienz nutzt. Mit dem vorgeschlagenen Ansatz trainieren wir ein neuartiges autoregressives Video-Modell ohne Vektorquantisierung, genannt NOVA. Unsere Ergebnisse zeigen, dass NOVA frühere autoregressive Video-Modelle in Daten-Effizienz, Inferenzgeschwindigkeit, visueller Treue und Video-Flüssigkeit übertrifft, selbst bei einer viel kleineren Modellkapazität, d.h. 0,6 Milliarden Parametern. NOVA übertrifft auch state-of-the-art Bild-Diffusionsmodelle in Text-zu-Bild-Generierungsaufgaben bei erheblich niedrigeren Trainingskosten. Darüber hinaus generalisiert NOVA gut über erweiterte Videodauern und ermöglicht vielfältige Zero-Shot-Anwendungen in einem vereinheitlichten Modell. Code und Modelle sind öffentlich verfügbar unter https://github.com/baaivision/NOVA.
English
This paper presents a novel approach that enables autoregressive video
generation with high efficiency. We propose to reformulate the video generation
problem as a non-quantized autoregressive modeling of temporal frame-by-frame
prediction and spatial set-by-set prediction. Unlike raster-scan prediction in
prior autoregressive models or joint distribution modeling of fixed-length
tokens in diffusion models, our approach maintains the causal property of
GPT-style models for flexible in-context capabilities, while leveraging
bidirectional modeling within individual frames for efficiency. With the
proposed approach, we train a novel video autoregressive model without vector
quantization, termed NOVA. Our results demonstrate that NOVA surpasses prior
autoregressive video models in data efficiency, inference speed, visual
fidelity, and video fluency, even with a much smaller model capacity, i.e.,
0.6B parameters. NOVA also outperforms state-of-the-art image diffusion models
in text-to-image generation tasks, with a significantly lower training cost.
Additionally, NOVA generalizes well across extended video durations and enables
diverse zero-shot applications in one unified model. Code and models are
publicly available at https://github.com/baaivision/NOVA.Summary
AI-Generated Summary