MotionBench: Valutazione e Miglioramento della Comprensione del Movimento Video Dettagliato per i Modelli di Visione Linguistica
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models
January 6, 2025
Autori: Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang
cs.AI
Abstract
Negli ultimi anni, i modelli di visione del linguaggio (VLM) hanno compiuto progressi significativi nella comprensione dei video. Tuttavia, una capacità cruciale - la comprensione dettagliata del movimento - rimane poco esplorata nei benchmark attuali. Per affrontare questa lacuna, proponiamo MotionBench, un benchmark di valutazione completo progettato per valutare la comprensione dettagliata del movimento dei modelli di comprensione video. MotionBench valuta la percezione a livello di movimento dei modelli attraverso sei categorie principali di tipi di domande orientate al movimento e include dati raccolti da fonti diverse, garantendo una rappresentazione ampia dei contenuti video del mondo reale. I risultati sperimentali rivelano che i VLM esistenti hanno prestazioni scadenti nella comprensione dei movimenti dettagliati. Per migliorare la capacità dei VLM di percepire il movimento dettagliato all'interno di una lunghezza di sequenza limitata di LLM, conduciamo ampi esperimenti che esaminano le architetture dei VLM ottimizzate per la compressione delle caratteristiche video e proponiamo un metodo di Fusione Through-Encoder (TE) innovativo ed efficiente. Gli esperimenti mostrano che input a frame rate più elevato e la Fusione TE portano a miglioramenti nella comprensione del movimento, ma c'è ancora ampio margine per l'ottimizzazione. Il nostro benchmark mira a guidare e motivare lo sviluppo di modelli di comprensione video più capaci, sottolineando l'importanza della comprensione dettagliata del movimento. Pagina del progetto: https://motion-bench.github.io.
English
In recent years, vision language models (VLMs) have made significant
advancements in video understanding. However, a crucial capability -
fine-grained motion comprehension - remains under-explored in current
benchmarks. To address this gap, we propose MotionBench, a comprehensive
evaluation benchmark designed to assess the fine-grained motion comprehension
of video understanding models. MotionBench evaluates models' motion-level
perception through six primary categories of motion-oriented question types and
includes data collected from diverse sources, ensuring a broad representation
of real-world video content. Experimental results reveal that existing VLMs
perform poorly in understanding fine-grained motions. To enhance VLM's ability
to perceive fine-grained motion within a limited sequence length of LLM, we
conduct extensive experiments reviewing VLM architectures optimized for video
feature compression and propose a novel and efficient Through-Encoder (TE)
Fusion method. Experiments show that higher frame rate inputs and TE Fusion
yield improvements in motion understanding, yet there is still substantial room
for enhancement. Our benchmark aims to guide and motivate the development of
more capable video understanding models, emphasizing the importance of
fine-grained motion comprehension. Project page: https://motion-bench.github.io .Summary
AI-Generated Summary