LongVU: Ruimtelijk-temporele Adaptieve Compressie voor het Begrijpen van Lange Video-Taal
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
October 22, 2024
Auteurs: Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra
cs.AI
Samenvatting
Multimodale Grote Taalmodellen (MLLM's) hebben veelbelovende vooruitgang getoond in het begrijpen en analyseren van videomateriaal. Het verwerken van lange video's blijft echter een aanzienlijke uitdaging die wordt beperkt door de contextgrootte van LLM's. Om deze beperking aan te pakken, stellen wij LongVU voor, een spatiotemporaal adaptief compressiemechanisme dat het aantal videotokens vermindert terwijl het visuele details van lange video's behoudt. Ons idee is gebaseerd op het benutten van crossmodale query's en inter-frame afhankelijkheden om adaptief de temporale en spatiale redundantie in video's te verminderen. Specifiek maken we gebruik van DINOv2-kenmerken om overbodige frames met hoge gelijkenis te verwijderen. Vervolgens gebruiken we door tekst geleide crossmodale query voor selectieve vermindering van framekenmerken. Verder voeren we ruimtelijke tokenvermindering uit over frames op basis van hun temporale afhankelijkheden. Onze adaptieve compressiestrategie verwerkt effectief een groot aantal frames met weinig visueel informatieverlies binnen de gegeven contextlengte. Onze LongVU overtreft consequent bestaande methoden over verschillende videobegripsbenchmarks, vooral bij taken voor het begrijpen van uur lange video's zoals VideoMME en MLVU. Met een lichtgewicht LLM schaalt onze LongVU ook effectief naar een kleinere omvang met een videobegrip prestatie die state-of-the-art is.
English
Multimodal Large Language Models (MLLMs) have shown promising progress in
understanding and analyzing video content. However, processing long videos
remains a significant challenge constrained by LLM's context size. To address
this limitation, we propose LongVU, a spatiotemporal adaptive compression
mechanism thats reduces the number of video tokens while preserving visual
details of long videos. Our idea is based on leveraging cross-modal query and
inter-frame dependencies to adaptively reduce temporal and spatial redundancy
in videos. Specifically, we leverage DINOv2 features to remove redundant frames
that exhibit high similarity. Then we utilize text-guided cross-modal query for
selective frame feature reduction. Further, we perform spatial token reduction
across frames based on their temporal dependencies. Our adaptive compression
strategy effectively processes a large number of frames with little visual
information loss within given context length. Our LongVU consistently surpass
existing methods across a variety of video understanding benchmarks, especially
on hour-long video understanding tasks such as VideoMME and MLVU. Given a
light-weight LLM, our LongVU also scales effectively into a smaller size with
state-of-the-art video understanding performance.Summary
AI-Generated Summary