MLLMs 벤치마킹을 위한 중복성 원칙
Redundancy Principles for MLLMs Benchmarks
January 20, 2025
저자: Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
cs.AI
초록
다중 모달리티 대규모 언어 모델(MLLMs)의 빠른 반복과 분야의 진화하는 요구에 따라 매년 생산되는 벤치마크 수가 수백 개로 급증했습니다. 이 신속한 성장은 불가피하게 벤치마크 사이에 상당한 중복을 야기했습니다. 따라서 현재의 중복 상태를 비평적으로 평가하고 효과적인 MLLM 벤치마크를 구축하기 위한 목표 지침을 제안하는 것이 중요합니다. 본 논문에서는 세 가지 주요 관점에서 중복에 초점을 맞춥니다: 1) 벤치마크 능력 차원의 중복, 2) 테스트 질문 수의 중복, 그리고 3) 특정 도메인 내에서의 벤치마크 간 중복. 20개 이상의 벤치마크를 통해 수백 개의 MLLM의 성능을 종합적으로 분석함으로써 기존 MLLM 평가에서의 중복 수준을 정량적으로 측정하고, 미래 MLLM 벤치마크의 발전을 안내하는 가치 있는 통찰을 제공하며, 중복 문제를 정제하고 대응하는 전략을 효과적으로 제시하고자 합니다.
English
With the rapid iteration of Multi-modality Large Language Models (MLLMs) and
the evolving demands of the field, the number of benchmarks produced annually
has surged into the hundreds. The rapid growth has inevitably led to
significant redundancy among benchmarks. Therefore, it is crucial to take a
step back and critically assess the current state of redundancy and propose
targeted principles for constructing effective MLLM benchmarks. In this paper,
we focus on redundancy from three key perspectives: 1) Redundancy of benchmark
capability dimensions, 2) Redundancy in the number of test questions, and 3)
Cross-benchmark redundancy within specific domains. Through the comprehensive
analysis over hundreds of MLLMs' performance across more than 20 benchmarks, we
aim to quantitatively measure the level of redundancy lies in existing MLLM
evaluations, provide valuable insights to guide the future development of MLLM
benchmarks, and offer strategies to refine and address redundancy issues
effectively.Summary
AI-Generated Summary