Geração de Vídeo Autoregressiva sem Quantização de Vetores
Autoregressive Video Generation without Vector Quantization
December 18, 2024
Autores: Haoge Deng, Ting Pan, Haiwen Diao, Zhengxiong Luo, Yufeng Cui, Huchuan Lu, Shiguang Shan, Yonggang Qi, Xinlong Wang
cs.AI
Resumo
Este artigo apresenta uma abordagem inovadora que possibilita a geração autoregressiva de vídeos com alta eficiência. Propomos reformular o problema de geração de vídeos como modelagem autoregressiva não quantizada de previsão temporal quadro a quadro e previsão espacial conjunto a conjunto. Ao contrário da previsão de varredura de raster em modelos autoregressivos anteriores ou modelagem de distribuição conjunta de tokens de comprimento fixo em modelos de difusão, nossa abordagem mantém a propriedade causal dos modelos no estilo GPT para capacidades flexíveis no contexto, ao mesmo tempo que aproveita a modelagem bidirecional dentro de quadros individuais para eficiência. Com a abordagem proposta, treinamos um novo modelo autoregressivo de vídeo sem quantização de vetores, denominado NOVA. Nossos resultados demonstram que o NOVA supera os modelos autoregressivos de vídeo anteriores em eficiência de dados, velocidade de inferência, fidelidade visual e fluidez de vídeo, mesmo com uma capacidade de modelo muito menor, ou seja, 0,6 bilhões de parâmetros. O NOVA também supera os modelos de difusão de imagem de última geração em tarefas de geração de texto para imagem, com um custo de treinamento significativamente menor. Além disso, o NOVA generaliza bem em durações de vídeo estendidas e possibilita diversas aplicações de zero-shot em um modelo unificado. O código e os modelos estão disponíveis publicamente em https://github.com/baaivision/NOVA.
English
This paper presents a novel approach that enables autoregressive video
generation with high efficiency. We propose to reformulate the video generation
problem as a non-quantized autoregressive modeling of temporal frame-by-frame
prediction and spatial set-by-set prediction. Unlike raster-scan prediction in
prior autoregressive models or joint distribution modeling of fixed-length
tokens in diffusion models, our approach maintains the causal property of
GPT-style models for flexible in-context capabilities, while leveraging
bidirectional modeling within individual frames for efficiency. With the
proposed approach, we train a novel video autoregressive model without vector
quantization, termed NOVA. Our results demonstrate that NOVA surpasses prior
autoregressive video models in data efficiency, inference speed, visual
fidelity, and video fluency, even with a much smaller model capacity, i.e.,
0.6B parameters. NOVA also outperforms state-of-the-art image diffusion models
in text-to-image generation tasks, with a significantly lower training cost.
Additionally, NOVA generalizes well across extended video durations and enables
diverse zero-shot applications in one unified model. Code and models are
publicly available at https://github.com/baaivision/NOVA.Summary
AI-Generated Summary