LongVU : Compression Adaptative Spatiotemporelle pour la Compréhension Vidéo-Langage à Long Terme
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
October 22, 2024
Auteurs: Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra
cs.AI
Résumé
Les Modèles de Langage Multimodaux à Grande Échelle (MLLM) ont montré des progrès prometteurs dans la compréhension et l'analyse du contenu vidéo. Cependant, le traitement de longues vidéos reste un défi significatif limité par la taille du contexte des MLLM. Pour pallier cette limitation, nous proposons LongVU, un mécanisme de compression adaptative spatiotemporelle qui réduit le nombre de jetons vidéo tout en préservant les détails visuels des longues vidéos. Notre idée repose sur l'exploitation de requêtes croisées multimodales et des dépendances inter-trames pour réduire de manière adaptative la redondance temporelle et spatiale dans les vidéos. Plus précisément, nous exploitons les caractéristiques de DINOv2 pour supprimer les trames redondantes présentant une similarité élevée. Ensuite, nous utilisons une requête croisée guidée par du texte pour une réduction sélective des caractéristiques des trames. De plus, nous effectuons une réduction des jetons spatiaux à travers les trames en fonction de leurs dépendances temporelles. Notre stratégie de compression adaptative traite efficacement un grand nombre de trames avec peu de perte d'informations visuelles dans la longueur de contexte donnée. Notre LongVU surpasse de manière constante les méthodes existantes sur une variété de bancs d'essai de compréhension vidéo, en particulier sur des tâches de compréhension vidéo d'une heure telles que VideoMME et MLVU. Étant donné un MLLM léger, notre LongVU s'étend également efficacement à une taille plus petite avec des performances de compréhension vidéo de pointe.
English
Multimodal Large Language Models (MLLMs) have shown promising progress in
understanding and analyzing video content. However, processing long videos
remains a significant challenge constrained by LLM's context size. To address
this limitation, we propose LongVU, a spatiotemporal adaptive compression
mechanism thats reduces the number of video tokens while preserving visual
details of long videos. Our idea is based on leveraging cross-modal query and
inter-frame dependencies to adaptively reduce temporal and spatial redundancy
in videos. Specifically, we leverage DINOv2 features to remove redundant frames
that exhibit high similarity. Then we utilize text-guided cross-modal query for
selective frame feature reduction. Further, we perform spatial token reduction
across frames based on their temporal dependencies. Our adaptive compression
strategy effectively processes a large number of frames with little visual
information loss within given context length. Our LongVU consistently surpass
existing methods across a variety of video understanding benchmarks, especially
on hour-long video understanding tasks such as VideoMME and MLVU. Given a
light-weight LLM, our LongVU also scales effectively into a smaller size with
state-of-the-art video understanding performance.Summary
AI-Generated Summary