IV-Bench: Een Benchmark voor Beeldgebaseerde Video Waarneming en Redenering in Multimodale LLM's

Samenvatting

Bestaande evaluatieframeworks voor Multimodale Grote Taalmodellen (MLLMs) richten zich voornamelijk op beeldredenering of algemene videobegriptaken, waarbij de significante rol van beeldcontext in videobegrip grotendeels over het hoofd wordt gezien. Om deze kloof te overbruggen, stellen we IV-Bench voor, de eerste uitgebreide benchmark voor het evalueren van Beeldgebaseerde Videowaarneming en Redenering. IV-Bench bestaat uit 967 video's, gekoppeld aan 2.585 zorgvuldig geannoteerde beeld-tekstvragen over 13 taken (7 waarnemingstaken en 6 redeneertaken) en 5 representatieve categorieën. Uitgebreide evaluaties van state-of-the-art open-source (bijv. InternVL2.5, Qwen2.5-VL) en closed-source (bijv. GPT-4o, Gemini2-Flash en Gemini2-Pro) MLLM's tonen aan dat huidige modellen aanzienlijk onderpresteren in beeldgebaseerde videowaarneming en redenering, met een nauwkeurigheid van maximaal 28,9%. Verdere analyse onthult belangrijke factoren die de modelprestaties op IV-Bench beïnvloeden, waaronder het inferentiepatroon, het aantal frames en de resolutie. Daarnaast demonstreren we door middel van een eenvoudige datasynthesemethode dat de uitdagingen van IV-Bench verder reiken dan alleen het afstemmen van het dataformaat in het trainingsproces. Deze bevindingen bieden gezamenlijk waardevolle inzichten voor toekomstig onderzoek. Onze codes en data zijn vrijgegeven op https://github.com/multimodal-art-projection/IV-Bench.

English

Existing evaluation frameworks for Multimodal Large Language Models (MLLMs) primarily focus on image reasoning or general video understanding tasks, largely overlooking the significant role of image context in video comprehension. To bridge this gap, we propose IV-Bench, the first comprehensive benchmark for evaluating Image-Grounded Video Perception and Reasoning. IV-Bench consists of 967 videos paired with 2,585 meticulously annotated image-text queries across 13 tasks (7 perception and 6 reasoning tasks) and 5 representative categories. Extensive evaluations of state-of-the-art open-source (e.g., InternVL2.5, Qwen2.5-VL) and closed-source (e.g., GPT-4o, Gemini2-Flash and Gemini2-Pro) MLLMs demonstrate that current models substantially underperform in image-grounded video Perception and Reasoning, merely achieving at most 28.9% accuracy. Further analysis reveals key factors influencing model performance on IV-Bench, including inference pattern, frame number, and resolution. Additionally, through a simple data synthesis approach, we demonstratethe challenges of IV- Bench extend beyond merely aligning the data format in the training proecss. These findings collectively provide valuable insights for future research. Our codes and data are released in https://github.com/multimodal-art-projection/IV-Bench.

IV-Bench: Een Benchmark voor Beeldgebaseerde Video Waarneming en Redenering in Multimodale LLM's

IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs

Samenvatting

Summary

Support

Support