Vamba: Verständnis von stundenlangen Videos mit hybriden Mamba-Transformern
Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
March 14, 2025
Autoren: Weiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen
cs.AI
Zusammenfassung
State-of-the-Art-Transformer-basierte große multimodale Modelle (LMMs) haben Schwierigkeiten, stundenlange Videoeingaben zu verarbeiten, da die quadratische Komplexität der kausalen Selbstaufmerksamkeitsoperationen zu hohen Rechenkosten während des Trainings und der Inferenz führt. Bestehende tokenkomprimierungsbasierte Methoden reduzieren die Anzahl der Videotokens, führen jedoch oft zu Informationsverlust und bleiben für extrem lange Sequenzen ineffizient. In diesem Artikel untersuchen wir einen orthogonalen Ansatz, um ein hybrides Mamba-Transformer-Modell (VAMBA) zu entwickeln, das Mamba-2-Blöcke zur Kodierung von Videotokens mit linearer Komplexität einsetzt. Ohne jegliche Tokenreduktion kann VAMBA mehr als 1024 Frames (640x360) auf einer einzelnen GPU kodieren, während Transformer-basierte Modelle nur 256 Frames verarbeiten können. Bei langen Videoeingaben erreicht VAMBA eine Reduzierung des GPU-Speicherverbrauchs um mindestens 50 % während des Trainings und der Inferenz und verdoppelt nahezu die Geschwindigkeit pro Trainingsschritt im Vergleich zu Transformer-basierten LMMs. Unsere experimentellen Ergebnisse zeigen, dass VAMBA die Genauigkeit auf dem anspruchsvollen Benchmark LVBench für das Verständnis stundenlanger Videos um 4,3 % gegenüber früheren effizienten Video-LMMs verbessert und eine starke Leistung bei einer breiten Palette von Aufgaben zum Verständnis langer und kurzer Videos beibehält.
English
State-of-the-art transformer-based large multimodal models (LMMs) struggle to
handle hour-long video inputs due to the quadratic complexity of the causal
self-attention operations, leading to high computational costs during training
and inference. Existing token compression-based methods reduce the number of
video tokens but often incur information loss and remain inefficient for
extremely long sequences. In this paper, we explore an orthogonal direction to
build a hybrid Mamba-Transformer model (VAMBA) that employs Mamba-2 blocks to
encode video tokens with linear complexity. Without any token reduction, VAMBA
can encode more than 1024 frames (640times360) on a single GPU, while
transformer-based models can only encode 256 frames. On long video input, VAMBA
achieves at least 50% reduction in GPU memory usage during training and
inference, and nearly doubles the speed per training step compared to
transformer-based LMMs. Our experimental results demonstrate that VAMBA
improves accuracy by 4.3% on the challenging hour-long video understanding
benchmark LVBench over prior efficient video LMMs, and maintains strong
performance on a broad spectrum of long and short video understanding tasks.Summary
AI-Generated Summary