MotionBench: Avaliação e Melhoria da Compreensão de Movimento em Vídeos de Detalhe Fino para Modelos de Linguagem Visual
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models
January 6, 2025
Autores: Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang
cs.AI
Resumo
Nos últimos anos, os modelos de visão e linguagem (VLMs) fizeram avanços significativos na compreensão de vídeos. No entanto, uma capacidade crucial - a compreensão de movimentos detalhados - permanece pouco explorada nos benchmarks atuais. Para abordar essa lacuna, propomos o MotionBench, um benchmark abrangente projetado para avaliar a compreensão de movimentos detalhados dos modelos de compreensão de vídeo. O MotionBench avalia a percepção em nível de movimento dos modelos por meio de seis categorias principais de tipos de perguntas orientadas ao movimento e inclui dados coletados de fontes diversas, garantindo uma representação ampla de conteúdo de vídeo do mundo real. Resultados experimentais revelam que os VLMs existentes têm baixo desempenho na compreensão de movimentos detalhados. Para aprimorar a capacidade dos VLMs de perceber movimentos detalhados dentro de um comprimento de sequência limitado de LLM, conduzimos experimentos extensivos revisando arquiteturas de VLM otimizadas para compressão de características de vídeo e propomos um método de Fusão Through-Encoder (TE) novo e eficiente. Os experimentos mostram que entradas com taxas de quadros mais altas e a Fusão TE resultam em melhorias na compreensão de movimentos, porém ainda há um espaço substancial para aprimoramento. Nosso benchmark tem como objetivo orientar e motivar o desenvolvimento de modelos de compreensão de vídeo mais capazes, enfatizando a importância da compreensão de movimentos detalhados. Página do projeto: https://motion-bench.github.io.
English
In recent years, vision language models (VLMs) have made significant
advancements in video understanding. However, a crucial capability -
fine-grained motion comprehension - remains under-explored in current
benchmarks. To address this gap, we propose MotionBench, a comprehensive
evaluation benchmark designed to assess the fine-grained motion comprehension
of video understanding models. MotionBench evaluates models' motion-level
perception through six primary categories of motion-oriented question types and
includes data collected from diverse sources, ensuring a broad representation
of real-world video content. Experimental results reveal that existing VLMs
perform poorly in understanding fine-grained motions. To enhance VLM's ability
to perceive fine-grained motion within a limited sequence length of LLM, we
conduct extensive experiments reviewing VLM architectures optimized for video
feature compression and propose a novel and efficient Through-Encoder (TE)
Fusion method. Experiments show that higher frame rate inputs and TE Fusion
yield improvements in motion understanding, yet there is still substantial room
for enhancement. Our benchmark aims to guide and motivate the development of
more capable video understanding models, emphasizing the importance of
fine-grained motion comprehension. Project page: https://motion-bench.github.io .Summary
AI-Generated Summary