IV-Bench: Een Benchmark voor Beeldgebaseerde Video Waarneming en Redenering in Multimodale LLM's
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs
April 21, 2025
Auteurs: David Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin
cs.AI
Samenvatting
Bestaande evaluatieframeworks voor Multimodale Grote Taalmodellen (MLLMs) richten zich voornamelijk op beeldredenering of algemene videobegriptaken, waarbij de significante rol van beeldcontext in videobegrip grotendeels over het hoofd wordt gezien. Om deze kloof te overbruggen, stellen we IV-Bench voor, de eerste uitgebreide benchmark voor het evalueren van Beeldgebaseerde Videowaarneming en Redenering. IV-Bench bestaat uit 967 video's, gekoppeld aan 2.585 zorgvuldig geannoteerde beeld-tekstvragen over 13 taken (7 waarnemingstaken en 6 redeneertaken) en 5 representatieve categorieën. Uitgebreide evaluaties van state-of-the-art open-source (bijv. InternVL2.5, Qwen2.5-VL) en closed-source (bijv. GPT-4o, Gemini2-Flash en Gemini2-Pro) MLLM's tonen aan dat huidige modellen aanzienlijk onderpresteren in beeldgebaseerde videowaarneming en redenering, met een nauwkeurigheid van maximaal 28,9%. Verdere analyse onthult belangrijke factoren die de modelprestaties op IV-Bench beïnvloeden, waaronder het inferentiepatroon, het aantal frames en de resolutie. Daarnaast demonstreren we door middel van een eenvoudige datasynthesemethode dat de uitdagingen van IV-Bench verder reiken dan alleen het afstemmen van het dataformaat in het trainingsproces. Deze bevindingen bieden gezamenlijk waardevolle inzichten voor toekomstig onderzoek. Onze codes en data zijn vrijgegeven op https://github.com/multimodal-art-projection/IV-Bench.
English
Existing evaluation frameworks for Multimodal Large Language Models (MLLMs)
primarily focus on image reasoning or general video understanding tasks,
largely overlooking the significant role of image context in video
comprehension. To bridge this gap, we propose IV-Bench, the first comprehensive
benchmark for evaluating Image-Grounded Video Perception and Reasoning.
IV-Bench consists of 967 videos paired with 2,585 meticulously annotated
image-text queries across 13 tasks (7 perception and 6 reasoning tasks) and 5
representative categories. Extensive evaluations of state-of-the-art
open-source (e.g., InternVL2.5, Qwen2.5-VL) and closed-source (e.g., GPT-4o,
Gemini2-Flash and Gemini2-Pro) MLLMs demonstrate that current models
substantially underperform in image-grounded video Perception and Reasoning,
merely achieving at most 28.9% accuracy. Further analysis reveals key factors
influencing model performance on IV-Bench, including inference pattern, frame
number, and resolution. Additionally, through a simple data synthesis approach,
we demonstratethe challenges of IV- Bench extend beyond merely aligning the
data format in the training proecss. These findings collectively provide
valuable insights for future research. Our codes and data are released in
https://github.com/multimodal-art-projection/IV-Bench.Summary
AI-Generated Summary