MotionBench: Valutazione e Miglioramento della Comprensione del Movimento Video Dettagliato per i Modelli di Visione Linguistica

Abstract

Negli ultimi anni, i modelli di visione del linguaggio (VLM) hanno compiuto progressi significativi nella comprensione dei video. Tuttavia, una capacità cruciale - la comprensione dettagliata del movimento - rimane poco esplorata nei benchmark attuali. Per affrontare questa lacuna, proponiamo MotionBench, un benchmark di valutazione completo progettato per valutare la comprensione dettagliata del movimento dei modelli di comprensione video. MotionBench valuta la percezione a livello di movimento dei modelli attraverso sei categorie principali di tipi di domande orientate al movimento e include dati raccolti da fonti diverse, garantendo una rappresentazione ampia dei contenuti video del mondo reale. I risultati sperimentali rivelano che i VLM esistenti hanno prestazioni scadenti nella comprensione dei movimenti dettagliati. Per migliorare la capacità dei VLM di percepire il movimento dettagliato all'interno di una lunghezza di sequenza limitata di LLM, conduciamo ampi esperimenti che esaminano le architetture dei VLM ottimizzate per la compressione delle caratteristiche video e proponiamo un metodo di Fusione Through-Encoder (TE) innovativo ed efficiente. Gli esperimenti mostrano che input a frame rate più elevato e la Fusione TE portano a miglioramenti nella comprensione del movimento, ma c'è ancora ampio margine per l'ottimizzazione. Il nostro benchmark mira a guidare e motivare lo sviluppo di modelli di comprensione video più capaci, sottolineando l'importanza della comprensione dettagliata del movimento. Pagina del progetto: https://motion-bench.github.io.

English

In recent years, vision language models (VLMs) have made significant advancements in video understanding. However, a crucial capability - fine-grained motion comprehension - remains under-explored in current benchmarks. To address this gap, we propose MotionBench, a comprehensive evaluation benchmark designed to assess the fine-grained motion comprehension of video understanding models. MotionBench evaluates models' motion-level perception through six primary categories of motion-oriented question types and includes data collected from diverse sources, ensuring a broad representation of real-world video content. Experimental results reveal that existing VLMs perform poorly in understanding fine-grained motions. To enhance VLM's ability to perceive fine-grained motion within a limited sequence length of LLM, we conduct extensive experiments reviewing VLM architectures optimized for video feature compression and propose a novel and efficient Through-Encoder (TE) Fusion method. Experiments show that higher frame rate inputs and TE Fusion yield improvements in motion understanding, yet there is still substantial room for enhancement. Our benchmark aims to guide and motivate the development of more capable video understanding models, emphasizing the importance of fine-grained motion comprehension. Project page: https://motion-bench.github.io .

MotionBench: Valutazione e Miglioramento della Comprensione del Movimento Video Dettagliato per i Modelli di Visione Linguistica

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Abstract

Support