Redundanzprinzipien für Benchmarktests von mehrsprachigen Sprachmodellen mit großem Maßstab
Redundancy Principles for MLLMs Benchmarks
January 20, 2025
Autoren: Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
cs.AI
Zusammenfassung
Mit der schnellen Iteration von Multi-Modalen Großen Sprachmodellen (MLLMs) und den sich entwickelnden Anforderungen des Feldes ist die Anzahl der jährlich erstellten Benchmarks auf Hunderte angestiegen. Das rasche Wachstum hat zwangsläufig zu erheblicher Redundanz unter den Benchmarks geführt. Daher ist es entscheidend, einen Schritt zurückzutreten, den aktuellen Stand der Redundanz kritisch zu bewerten und gezielte Prinzipien für die Konstruktion effektiver MLLM-Benchmarks vorzuschlagen. In diesem Paper konzentrieren wir uns auf Redundanz aus drei wesentlichen Perspektiven: 1) Redundanz der Benchmark-Fähigkeitsdimensionen, 2) Redundanz in der Anzahl der Testfragen und 3) Cross-Benchmark-Redundanz innerhalb spezifischer Domänen. Durch die umfassende Analyse von Hunderten von MLLMs-Leistungen über mehr als 20 Benchmarks hinweg zielen wir darauf ab, das Ausmaß der Redundanz in bestehenden MLLM-Evaluationen quantitativ zu messen, wertvolle Einblicke zur Leitung der zukünftigen Entwicklung von MLLM-Benchmarks zu bieten und Strategien zur effektiven Überarbeitung und Bewältigung von Redundanzproblemen anzubieten.
English
With the rapid iteration of Multi-modality Large Language Models (MLLMs) and
the evolving demands of the field, the number of benchmarks produced annually
has surged into the hundreds. The rapid growth has inevitably led to
significant redundancy among benchmarks. Therefore, it is crucial to take a
step back and critically assess the current state of redundancy and propose
targeted principles for constructing effective MLLM benchmarks. In this paper,
we focus on redundancy from three key perspectives: 1) Redundancy of benchmark
capability dimensions, 2) Redundancy in the number of test questions, and 3)
Cross-benchmark redundancy within specific domains. Through the comprehensive
analysis over hundreds of MLLMs' performance across more than 20 benchmarks, we
aim to quantitatively measure the level of redundancy lies in existing MLLM
evaluations, provide valuable insights to guide the future development of MLLM
benchmarks, and offer strategies to refine and address redundancy issues
effectively.Summary
AI-Generated Summary