LongVU: 장기 비디오-언어 이해를 위한 시공간적 적응형 압축
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
October 22, 2024
저자: Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra
cs.AI
초록
다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 비디오 콘텐츠를 이해하고 분석하는 데 유망한 진전을 보여주었습니다. 그러나 긴 비디오를 처리하는 것은 LLM의 문맥 크기에 제약을 받아 중요한 도전 과제입니다. 이 한계를 극복하기 위해 우리는 LongVU를 제안합니다. 이는 비디오 토큰의 수를 줄이면서 긴 비디오의 시각적 세부 정보를 보존하는 시공간 적응 압축 메커니즘입니다. 우리의 아이디어는 교차 모달 쿼리와 프레임 간 종속성을 활용하여 비디오의 시간적 및 공간적 중복성을 적응적으로 줄이는 데 기반합니다. 구체적으로, 우리는 높은 유사성을 나타내는 중복 프레임을 제거하기 위해 DINOv2 특징을 활용합니다. 그런 다음 선택적 프레임 특징 축소를 위해 텍스트로 안내된 교차 모달 쿼리를 활용합니다. 더 나아가, 우리는 프레임 간의 시간적 종속성에 기초하여 프레임 간의 공간 토큰 축소를 수행합니다. 우리의 적응적 압축 전략은 주어진 문맥 길이 내에서 시각적 정보 손실을 최소화하면서 많은 프레임을 효과적으로 처리합니다. LongVU는 VideoMME 및 MLVU와 같은 시간이 오래 걸리는 비디오 이해 작업을 포함한 다양한 비디오 이해 벤치마크에서 기존 방법을 일관되게 능가합니다. 가벼운 무게의 LLM이 주어진 경우, LongVU는 최신 비디오 이해 성능을 유지하면서 효과적으로 더 작은 크기로 확장됩니다.
English
Multimodal Large Language Models (MLLMs) have shown promising progress in
understanding and analyzing video content. However, processing long videos
remains a significant challenge constrained by LLM's context size. To address
this limitation, we propose LongVU, a spatiotemporal adaptive compression
mechanism thats reduces the number of video tokens while preserving visual
details of long videos. Our idea is based on leveraging cross-modal query and
inter-frame dependencies to adaptively reduce temporal and spatial redundancy
in videos. Specifically, we leverage DINOv2 features to remove redundant frames
that exhibit high similarity. Then we utilize text-guided cross-modal query for
selective frame feature reduction. Further, we perform spatial token reduction
across frames based on their temporal dependencies. Our adaptive compression
strategy effectively processes a large number of frames with little visual
information loss within given context length. Our LongVU consistently surpass
existing methods across a variety of video understanding benchmarks, especially
on hour-long video understanding tasks such as VideoMME and MLVU. Given a
light-weight LLM, our LongVU also scales effectively into a smaller size with
state-of-the-art video understanding performance.Summary
AI-Generated Summary