Redundantieprincipes voor MLLM's benchmarks
Redundancy Principles for MLLMs Benchmarks
January 20, 2025
Auteurs: Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
cs.AI
Samenvatting
Met de snelle iteratie van Multi-modaliteit Grote Taalmodellen (MLLM's) en de evoluerende eisen van het vakgebied, is het aantal benchmarks dat jaarlijks wordt geproduceerd gestegen tot in de honderden. De snelle groei heeft onvermijdelijk geleid tot aanzienlijke redundantie tussen benchmarks. Daarom is het cruciaal om een stap terug te nemen en kritisch de huidige staat van redundantie te beoordelen en gerichte principes voor het construeren van effectieve MLLM-benchmarks voor te stellen. In dit artikel richten we ons op redundantie vanuit drie belangrijke perspectieven: 1) Redundantie van benchmark capaciteitsdimensies, 2) Redundantie in het aantal testvragen, en 3) Cross-benchmark redundantie binnen specifieke domeinen. Door de uitgebreide analyse van de prestaties van honderden MLLM's over meer dan 20 benchmarks, streven we ernaar kwantitatief te meten in welke mate redundantie aanwezig is in bestaande MLLM-evaluaties, waardevolle inzichten te bieden om de toekomstige ontwikkeling van MLLM-benchmarks te sturen, en strategieën aan te bieden om redundantie effectief te verfijnen en aan te pakken.
English
With the rapid iteration of Multi-modality Large Language Models (MLLMs) and
the evolving demands of the field, the number of benchmarks produced annually
has surged into the hundreds. The rapid growth has inevitably led to
significant redundancy among benchmarks. Therefore, it is crucial to take a
step back and critically assess the current state of redundancy and propose
targeted principles for constructing effective MLLM benchmarks. In this paper,
we focus on redundancy from three key perspectives: 1) Redundancy of benchmark
capability dimensions, 2) Redundancy in the number of test questions, and 3)
Cross-benchmark redundancy within specific domains. Through the comprehensive
analysis over hundreds of MLLMs' performance across more than 20 benchmarks, we
aim to quantitatively measure the level of redundancy lies in existing MLLM
evaluations, provide valuable insights to guide the future development of MLLM
benchmarks, and offer strategies to refine and address redundancy issues
effectively.Summary
AI-Generated Summary