Generazione Video Autoregressiva senza Quantizzazione Vettoriale
Autoregressive Video Generation without Vector Quantization
December 18, 2024
Autori: Haoge Deng, Ting Pan, Haiwen Diao, Zhengxiong Luo, Yufeng Cui, Huchuan Lu, Shiguang Shan, Yonggang Qi, Xinlong Wang
cs.AI
Abstract
Questo articolo presenta un nuovo approccio che consente la generazione autoregressiva di video con elevata efficienza. Proponiamo di riformulare il problema della generazione di video come una modellazione autoregressiva non quantizzata della previsione temporale frame-by-frame e della previsione spaziale set-by-set. A differenza della previsione a scansione raster nei modelli autoregressivi precedenti o della modellazione della distribuzione congiunta di token di lunghezza fissa nei modelli di diffusione, il nostro approccio mantiene la proprietà causale dei modelli in stile GPT per capacità flessibili in contesto, sfruttando al contempo la modellazione bidirezionale all'interno dei singoli frame per l'efficienza. Con l'approccio proposto, addestriamo un nuovo modello autoregressivo video senza quantizzazione vettoriale, denominato NOVA. I nostri risultati dimostrano che NOVA supera i modelli video autoregressivi precedenti in efficienza dei dati, velocità di inferenza, fedeltà visiva e fluidità dei video, anche con una capacità del modello molto più piccola, cioè 0,6 miliardi di parametri. NOVA supera anche i modelli di diffusione di immagini all'avanguardia nei compiti di generazione di testo in immagine, con un costo di addestramento significativamente inferiore. Inoltre, NOVA generalizza bene su durate video estese e consente diverse applicazioni zero-shot in un unico modello unificato. Il codice e i modelli sono disponibili pubblicamente su https://github.com/baaivision/NOVA.
English
This paper presents a novel approach that enables autoregressive video
generation with high efficiency. We propose to reformulate the video generation
problem as a non-quantized autoregressive modeling of temporal frame-by-frame
prediction and spatial set-by-set prediction. Unlike raster-scan prediction in
prior autoregressive models or joint distribution modeling of fixed-length
tokens in diffusion models, our approach maintains the causal property of
GPT-style models for flexible in-context capabilities, while leveraging
bidirectional modeling within individual frames for efficiency. With the
proposed approach, we train a novel video autoregressive model without vector
quantization, termed NOVA. Our results demonstrate that NOVA surpasses prior
autoregressive video models in data efficiency, inference speed, visual
fidelity, and video fluency, even with a much smaller model capacity, i.e.,
0.6B parameters. NOVA also outperforms state-of-the-art image diffusion models
in text-to-image generation tasks, with a significantly lower training cost.
Additionally, NOVA generalizes well across extended video durations and enables
diverse zero-shot applications in one unified model. Code and models are
publicly available at https://github.com/baaivision/NOVA.Summary
AI-Generated Summary