Langzeitkontext-Autoregressive Videomodellierung mit Vorhersage des nächsten Bildes
Long-Context Autoregressive Video Modeling with Next-Frame Prediction
March 25, 2025
Autoren: Yuchao Gu, Weijia Mao, Mike Zheng Shou
cs.AI
Zusammenfassung
Die autoregressive Modellierung mit langem Kontext hat die Sprachgenerierung erheblich vorangetrieben, doch bei der Videogenerierung bleibt die vollständige Nutzung erweiterter zeitlicher Kontexte eine Herausforderung. Um die Modellierung von langem Kontext in Videos zu untersuchen, führen wir Frame AutoRegressive (FAR) ein, eine robuste Baseline für die autoregressive Modellierung von Videos. Ähnlich wie Sprachmodelle kausale Abhängigkeiten zwischen Tokens lernen (d.h., Token AR), modelliert FAR zeitliche kausale Abhängigkeiten zwischen kontinuierlichen Frames und erreicht eine bessere Konvergenz als Token AR und Video-Diffusionstransformer. Aufbauend auf FAR stellen wir fest, dass die Modellierung von langem Kontext in der Bildverarbeitung aufgrund visueller Redundanz Schwierigkeiten bereitet. Das bestehende RoPE verfügt nicht über einen effektiven zeitlichen Abfall für entfernte Kontexte und extrapoliert schlecht auf lange Videosequenzen. Zudem ist das Training auf langen Videos rechenintensiv, da Vision-Tokens viel schneller wachsen als Sprach-Tokens. Um diese Probleme zu lösen, schlagen wir vor, Lokalität und langreichweitige Abhängigkeiten auszubalancieren. Wir führen FlexRoPE ein, eine Technik zur Laufzeit, die RoPE einen flexiblen zeitlichen Abfall hinzufügt und die Extrapolation auf 16x längere Vision-Kontexte ermöglicht. Darüber hinaus schlagen wir die Modellierung von kurz- und langfristigem Kontext vor, bei der ein hochauflösendes kurzfristiges Kontextfenster eine feinkörnige zeitliche Konsistenz gewährleistet, während ein unbegrenztes langfristiges Kontextfenster langreichweitige Informationen mit weniger Tokens kodiert. Mit diesem Ansatz können wir lange Videosequenzen mit einer handhabbaren Token-Kontextlänge trainieren. Wir zeigen, dass FAR sowohl bei der kurzen als auch bei der langen Videogenerierung Spitzenleistungen erzielt und eine einfache, aber effektive Baseline für die autoregressive Modellierung von Videos bietet.
English
Long-context autoregressive modeling has significantly advanced language
generation, but video generation still struggles to fully utilize extended
temporal contexts. To investigate long-context video modeling, we introduce
Frame AutoRegressive (FAR), a strong baseline for video autoregressive
modeling. Just as language models learn causal dependencies between tokens
(i.e., Token AR), FAR models temporal causal dependencies between continuous
frames, achieving better convergence than Token AR and video diffusion
transformers. Building on FAR, we observe that long-context vision modeling
faces challenges due to visual redundancy. Existing RoPE lacks effective
temporal decay for remote context and fails to extrapolate well to long video
sequences. Additionally, training on long videos is computationally expensive,
as vision tokens grow much faster than language tokens. To tackle these issues,
we propose balancing locality and long-range dependency. We introduce FlexRoPE,
an test-time technique that adds flexible temporal decay to RoPE, enabling
extrapolation to 16x longer vision contexts. Furthermore, we propose long
short-term context modeling, where a high-resolution short-term context window
ensures fine-grained temporal consistency, while an unlimited long-term context
window encodes long-range information using fewer tokens. With this approach,
we can train on long video sequences with a manageable token context length. We
demonstrate that FAR achieves state-of-the-art performance in both short- and
long-video generation, providing a simple yet effective baseline for video
autoregressive modeling.Summary
AI-Generated Summary