Modellazione Autoregressiva a Lungo Contesto per Video con Predizione del Frame Successivo
Long-Context Autoregressive Video Modeling with Next-Frame Prediction
March 25, 2025
Autori: Yuchao Gu, Weijia Mao, Mike Zheng Shou
cs.AI
Abstract
La modellazione autoregressiva a lungo contesto ha fatto progressi significativi nella generazione del linguaggio, ma la generazione video fatica ancora a sfruttare appieno contesti temporali estesi. Per indagare la modellazione video a lungo contesto, introduciamo Frame AutoRegressive (FAR), una solida baseline per la modellazione autoregressiva video. Proprio come i modelli linguistici apprendono dipendenze causali tra token (cioè Token AR), FAR modella le dipendenze causali temporali tra frame continui, ottenendo una convergenza migliore rispetto a Token AR e ai transformer di diffusione video. Basandoci su FAR, osserviamo che la modellazione visiva a lungo contesto affronta sfide dovute alla ridondanza visiva. L'attuale RoPE manca di un decadimento temporale efficace per contesti remoti e non riesce a estrapolare bene su sequenze video lunghe. Inoltre, l'addestramento su video lunghi è computazionalmente costoso, poiché i token visivi crescono molto più velocemente dei token linguistici. Per affrontare questi problemi, proponiamo di bilanciare località e dipendenza a lungo raggio. Introduciamo FlexRoPE, una tecnica in fase di test che aggiunge un decadimento temporale flessibile a RoPE, consentendo l'estrapolazione a contesti visivi 16 volte più lunghi. Inoltre, proponiamo la modellazione del contesto a breve e lungo termine, in cui una finestra di contesto a breve termine ad alta risoluzione garantisce una coerenza temporale fine, mentre una finestra di contesto a lungo termine illimitata codifica informazioni a lungo raggio utilizzando meno token. Con questo approccio, possiamo addestrare su sequenze video lunghe con una lunghezza di contesto token gestibile. Dimostriamo che FAR raggiunge prestazioni all'avanguardia sia nella generazione di video brevi che lunghi, fornendo una baseline semplice ma efficace per la modellazione autoregressiva video.
English
Long-context autoregressive modeling has significantly advanced language
generation, but video generation still struggles to fully utilize extended
temporal contexts. To investigate long-context video modeling, we introduce
Frame AutoRegressive (FAR), a strong baseline for video autoregressive
modeling. Just as language models learn causal dependencies between tokens
(i.e., Token AR), FAR models temporal causal dependencies between continuous
frames, achieving better convergence than Token AR and video diffusion
transformers. Building on FAR, we observe that long-context vision modeling
faces challenges due to visual redundancy. Existing RoPE lacks effective
temporal decay for remote context and fails to extrapolate well to long video
sequences. Additionally, training on long videos is computationally expensive,
as vision tokens grow much faster than language tokens. To tackle these issues,
we propose balancing locality and long-range dependency. We introduce FlexRoPE,
an test-time technique that adds flexible temporal decay to RoPE, enabling
extrapolation to 16x longer vision contexts. Furthermore, we propose long
short-term context modeling, where a high-resolution short-term context window
ensures fine-grained temporal consistency, while an unlimited long-term context
window encodes long-range information using fewer tokens. With this approach,
we can train on long video sequences with a manageable token context length. We
demonstrate that FAR achieves state-of-the-art performance in both short- and
long-video generation, providing a simple yet effective baseline for video
autoregressive modeling.Summary
AI-Generated Summary