MotionBench: 시각 언어 모델을 위한 세밀한 비디오 움직임 이해의 벤치마킹 및 개선
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models
January 6, 2025
저자: Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang
cs.AI
초록
최근 몇 년간 비전 언어 모델(VLMs)은 비디오 이해 분야에서 중요한 발전을 이루었습니다. 그러나 핵심 능력 중 하나인 세밀한 동작 이해는 현재의 벤치마크에서 충분히 탐구되지 않은 상태입니다. 이러한 공백을 해결하기 위해 우리는 세밀한 동작 이해를 평가하기 위해 설계된 포괄적인 평가 벤치마크인 MotionBench를 제안합니다. MotionBench는 모델의 동작 수준 인식을 여섯 가지 주요 동작 지향 질문 유형을 통해 평가하며, 실제 세계 비디오 콘텐츠의 넓은 대표성을 보장하기 위해 다양한 소스에서 수집한 데이터를 포함합니다. 실험 결과는 기존 VLMs가 세밀한 동작을 이해하는 데 성능이 저조함을 보여줍니다. LLM의 제한된 시퀀스 길이 내에서 세밀한 동작을 인식하는 VLM의 능력을 향상시키기 위해, 비디오 특징 압축에 최적화된 VLM 아키텍처를 검토하고 효율적인 Through-Encoder (TE) 퓨전 방법을 제안하는 포괄적인 실험을 수행합니다. 실험 결과는 더 높은 프레임 속도 입력과 TE 퓨전이 동작 이해를 향상시키지만, 여전히 큰 향상의 여지가 있음을 보여줍니다. 우리의 벤치마크는 더 강력한 비디오 이해 모델의 개발을 이끄는 데 목표를 두며, 세밀한 동작 이해의 중요성을 강조합니다. 프로젝트 페이지: https://motion-bench.github.io.
English
In recent years, vision language models (VLMs) have made significant
advancements in video understanding. However, a crucial capability -
fine-grained motion comprehension - remains under-explored in current
benchmarks. To address this gap, we propose MotionBench, a comprehensive
evaluation benchmark designed to assess the fine-grained motion comprehension
of video understanding models. MotionBench evaluates models' motion-level
perception through six primary categories of motion-oriented question types and
includes data collected from diverse sources, ensuring a broad representation
of real-world video content. Experimental results reveal that existing VLMs
perform poorly in understanding fine-grained motions. To enhance VLM's ability
to perceive fine-grained motion within a limited sequence length of LLM, we
conduct extensive experiments reviewing VLM architectures optimized for video
feature compression and propose a novel and efficient Through-Encoder (TE)
Fusion method. Experiments show that higher frame rate inputs and TE Fusion
yield improvements in motion understanding, yet there is still substantial room
for enhancement. Our benchmark aims to guide and motivate the development of
more capable video understanding models, emphasizing the importance of
fine-grained motion comprehension. Project page: https://motion-bench.github.io .Summary
AI-Generated Summary