ChatPaper.aiChatPaper

Autoregressive Videogenerierung ohne Vektorquantisierung

Autoregressive Video Generation without Vector Quantization

December 18, 2024
Autoren: Haoge Deng, Ting Pan, Haiwen Diao, Zhengxiong Luo, Yufeng Cui, Huchuan Lu, Shiguang Shan, Yonggang Qi, Xinlong Wang
cs.AI

Zusammenfassung

Dieses Paper präsentiert einen neuartigen Ansatz, der die autoregressive Generierung von Videos mit hoher Effizienz ermöglicht. Wir schlagen vor, das Problem der Video-Generierung als nicht-quantisierte autoregressive Modellierung von zeitlicher Frame-für-Frame-Vorhersage und räumlicher Set-für-Set-Vorhersage umzuformulieren. Im Gegensatz zur raster-scan Vorhersage in früheren autoregressiven Modellen oder der gemeinsamen Verteilungsmodellierung von Tokens fester Länge in Diffusionsmodellen behält unser Ansatz die kausale Eigenschaft von GPT-Modellen für flexible In-Context-Fähigkeiten bei, während er die bidirektionale Modellierung innerhalb einzelner Frames für Effizienz nutzt. Mit dem vorgeschlagenen Ansatz trainieren wir ein neuartiges autoregressives Video-Modell ohne Vektorquantisierung, genannt NOVA. Unsere Ergebnisse zeigen, dass NOVA frühere autoregressive Video-Modelle in Daten-Effizienz, Inferenzgeschwindigkeit, visueller Treue und Video-Flüssigkeit übertrifft, selbst bei einer viel kleineren Modellkapazität, d.h. 0,6 Milliarden Parametern. NOVA übertrifft auch state-of-the-art Bild-Diffusionsmodelle in Text-zu-Bild-Generierungsaufgaben bei erheblich niedrigeren Trainingskosten. Darüber hinaus generalisiert NOVA gut über erweiterte Videodauern und ermöglicht vielfältige Zero-Shot-Anwendungen in einem vereinheitlichten Modell. Code und Modelle sind öffentlich verfügbar unter https://github.com/baaivision/NOVA.
English
This paper presents a novel approach that enables autoregressive video generation with high efficiency. We propose to reformulate the video generation problem as a non-quantized autoregressive modeling of temporal frame-by-frame prediction and spatial set-by-set prediction. Unlike raster-scan prediction in prior autoregressive models or joint distribution modeling of fixed-length tokens in diffusion models, our approach maintains the causal property of GPT-style models for flexible in-context capabilities, while leveraging bidirectional modeling within individual frames for efficiency. With the proposed approach, we train a novel video autoregressive model without vector quantization, termed NOVA. Our results demonstrate that NOVA surpasses prior autoregressive video models in data efficiency, inference speed, visual fidelity, and video fluency, even with a much smaller model capacity, i.e., 0.6B parameters. NOVA also outperforms state-of-the-art image diffusion models in text-to-image generation tasks, with a significantly lower training cost. Additionally, NOVA generalizes well across extended video durations and enables diverse zero-shot applications in one unified model. Code and models are publicly available at https://github.com/baaivision/NOVA.

Summary

AI-Generated Summary

PDF142December 19, 2024