LongVU: Spatiotemporale adaptive Kompression für das Verständnis von langen Video-Sprache-Beziehungen

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben vielversprechende Fortschritte bei der Verständnis und Analyse von Videoinhalten gezeigt. Die Verarbeitung langer Videos bleibt jedoch eine bedeutende Herausforderung, die durch die Kontextgröße von LLMs eingeschränkt ist. Um diese Einschränkung anzugehen, schlagen wir LongVU vor, einen spatio-temporalen adaptiven Kompressionsmechanismus, der die Anzahl der Videotoken reduziert, während visuelle Details langer Videos erhalten bleiben. Unsere Idee basiert auf der Nutzung von Cross-Modal Query und Inter-Frame-Abhängigkeiten, um zeitliche und räumliche Redundanzen in Videos adaptiv zu reduzieren. Konkret nutzen wir DINOv2-Merkmale, um redundante Frames mit hoher Ähnlichkeit zu entfernen. Anschließend verwenden wir textgeführte Cross-Modal Query für eine selektive Reduzierung von Frame-Merkmalen. Darüber hinaus führen wir eine räumliche Token-Reduzierung über Frames basierend auf ihren zeitlichen Abhängigkeiten durch. Unsere adaptive Kompressionsstrategie verarbeitet effektiv eine große Anzahl von Frames mit geringem visuellen Informationsverlust innerhalb der gegebenen Kontextlänge. Unser LongVU übertrifft konsistent bestehende Methoden über eine Vielzahl von Videoverständnis-Benchmarks, insbesondere bei Aufgaben zum Verständnis von einstündigen Videos wie VideoMME und MLVU. Mit einem leichtgewichtigen LLM skaliert unser LongVU auch effektiv auf eine kleinere Größe mit einer Videoverständnis-Performance auf dem neuesten Stand der Technik.

English

Multimodal Large Language Models (MLLMs) have shown promising progress in understanding and analyzing video content. However, processing long videos remains a significant challenge constrained by LLM's context size. To address this limitation, we propose LongVU, a spatiotemporal adaptive compression mechanism thats reduces the number of video tokens while preserving visual details of long videos. Our idea is based on leveraging cross-modal query and inter-frame dependencies to adaptively reduce temporal and spatial redundancy in videos. Specifically, we leverage DINOv2 features to remove redundant frames that exhibit high similarity. Then we utilize text-guided cross-modal query for selective frame feature reduction. Further, we perform spatial token reduction across frames based on their temporal dependencies. Our adaptive compression strategy effectively processes a large number of frames with little visual information loss within given context length. Our LongVU consistently surpass existing methods across a variety of video understanding benchmarks, especially on hour-long video understanding tasks such as VideoMME and MLVU. Given a light-weight LLM, our LongVU also scales effectively into a smaller size with state-of-the-art video understanding performance.

LongVU: Spatiotemporale adaptive Kompression für das Verständnis von langen Video-Sprache-Beziehungen

LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

Zusammenfassung

Support