LongVU: Spatiotemporale adaptive Kompression für das Verständnis von langen Video-Sprache-Beziehungen
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
October 22, 2024
Autoren: Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle (MLLMs) haben vielversprechende Fortschritte bei der Verständnis und Analyse von Videoinhalten gezeigt. Die Verarbeitung langer Videos bleibt jedoch eine bedeutende Herausforderung, die durch die Kontextgröße von LLMs eingeschränkt ist. Um diese Einschränkung anzugehen, schlagen wir LongVU vor, einen spatio-temporalen adaptiven Kompressionsmechanismus, der die Anzahl der Videotoken reduziert, während visuelle Details langer Videos erhalten bleiben. Unsere Idee basiert auf der Nutzung von Cross-Modal Query und Inter-Frame-Abhängigkeiten, um zeitliche und räumliche Redundanzen in Videos adaptiv zu reduzieren. Konkret nutzen wir DINOv2-Merkmale, um redundante Frames mit hoher Ähnlichkeit zu entfernen. Anschließend verwenden wir textgeführte Cross-Modal Query für eine selektive Reduzierung von Frame-Merkmalen. Darüber hinaus führen wir eine räumliche Token-Reduzierung über Frames basierend auf ihren zeitlichen Abhängigkeiten durch. Unsere adaptive Kompressionsstrategie verarbeitet effektiv eine große Anzahl von Frames mit geringem visuellen Informationsverlust innerhalb der gegebenen Kontextlänge. Unser LongVU übertrifft konsistent bestehende Methoden über eine Vielzahl von Videoverständnis-Benchmarks, insbesondere bei Aufgaben zum Verständnis von einstündigen Videos wie VideoMME und MLVU. Mit einem leichtgewichtigen LLM skaliert unser LongVU auch effektiv auf eine kleinere Größe mit einer Videoverständnis-Performance auf dem neuesten Stand der Technik.
English
Multimodal Large Language Models (MLLMs) have shown promising progress in
understanding and analyzing video content. However, processing long videos
remains a significant challenge constrained by LLM's context size. To address
this limitation, we propose LongVU, a spatiotemporal adaptive compression
mechanism thats reduces the number of video tokens while preserving visual
details of long videos. Our idea is based on leveraging cross-modal query and
inter-frame dependencies to adaptively reduce temporal and spatial redundancy
in videos. Specifically, we leverage DINOv2 features to remove redundant frames
that exhibit high similarity. Then we utilize text-guided cross-modal query for
selective frame feature reduction. Further, we perform spatial token reduction
across frames based on their temporal dependencies. Our adaptive compression
strategy effectively processes a large number of frames with little visual
information loss within given context length. Our LongVU consistently surpass
existing methods across a variety of video understanding benchmarks, especially
on hour-long video understanding tasks such as VideoMME and MLVU. Given a
light-weight LLM, our LongVU also scales effectively into a smaller size with
state-of-the-art video understanding performance.Summary
AI-Generated Summary