Richter für Alles: MLLM als Richter über jegliche Modalität
Judge Anything: MLLM as a Judge Across Any Modality
March 21, 2025
Autoren: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
cs.AI
Zusammenfassung
Die Bewertung generativer Grundlagenmodelle auf offene multimodale Verständnis- (MMU) und Generierungsaufgaben (MMG) über verschiedene Modalitäten hinweg (z. B. Bilder, Audio, Video) stellt aufgrund der Komplexität der cross-modalen Interaktionen erhebliche Herausforderungen dar. In diesem Zusammenhang hat sich die Idee etabliert, Multimodale LLMs (MLLMs) als automatisierte Bewerter einzusetzen, mit ermutigenden Ergebnissen bei der Bewertung von Aufgaben im Bereich des visuell-sprachlichen Verständnisses. Dieser Beitrag erweitert den Ansatz von MLLM-as-a-Judge auf eine einheitliche Weise über Modalitäten hinweg, indem zwei Benchmarks eingeführt werden: TaskAnything und JudgeAnything, um jeweils die Gesamtleistung und die Bewertungsfähigkeiten von MLLMs bei Any-to-Any-Modalitätsaufgaben zu evaluieren. Konkret bewertet TaskAnything die MMU- und MMG-Fähigkeiten über 15 Any-to-Any-Modalitätskategorien hinweg, wobei 1.500 Abfragen aus etablierten Benchmarks verwendet werden. Darüber hinaus evaluiert JudgeAnything die Bewertungsfähigkeiten von fünf fortschrittlichen Modellen (z. B. GPT-4o und Gemini-2.0-Flash) aus den Perspektiven des Paarvergleichs und der Bewertung von Punktzahlen, wobei ein standardisierter Testrahmen bereitgestellt wird, der menschliche Urteile und detaillierte Bewertungskriterien einbezieht. Unsere umfangreichen Experimente zeigen, dass diese MLLMs zwar vielversprechende Ergebnisse bei der Bewertung von MMU-Aufgaben erzielen (d. h. durchschnittlich 66,55 % im Paarvergleich und 42,79 % bei der Bewertung von Punktzahlen), jedoch erhebliche Schwierigkeiten mit MMG-Aufgaben haben (d. h. durchschnittlich nur 53,37 % im Paarvergleich und 30,05 % bei der Bewertung von Punktzahlen), was auf cross-modale Verzerrungen und Halluzinationsprobleme hinweist. Um dies zu adressieren, präsentieren wir OmniArena, eine automatisierte Plattform zur Bewertung von Omni-Modellen und multimodalen Belohnungsmodellen. Unsere Arbeit unterstreicht die Notwendigkeit fairerer Bewertungsprotokolle und einer stärkeren Ausrichtung an menschlichen Präferenzen. Der Quellcode und der Datensatz sind öffentlich verfügbar unter: https://urrealhero.github.io/judgeanythingweb/.
English
Evaluating generative foundation models on open-ended multimodal
understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g.,
images, audio, video) poses significant challenges due to the complexity of
cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs
(MLLMs) as automated judges has emerged, with encouraging results in assessing
vision-language understanding tasks. Moving further, this paper extends
MLLM-as-a-Judge across modalities to a unified manner by introducing two
benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the
overall performance and judging capabilities of MLLMs across any-to-any
modality tasks. Specifically, TaskAnything evaluates the MMU and MMG
capabilities across 15 any-to-any modality categories, employing 1,500 queries
curated from well-established benchmarks. Furthermore, JudgeAnything evaluates
the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from
the perspectives of Pair Comparison and Score Evaluation, providing a
standardized testbed that incorporates human judgments and detailed rubrics.
Our extensive experiments reveal that while these MLLMs show promise in
assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting
and 42.79% in Score Evaluation setting), they encounter significant challenges
with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and
30.05% in Score Evaluation setting), exposing cross-modality biases and
hallucination issues. To address this, we present OmniArena, an automated
platform for evaluating omni-models and multimodal reward models. Our work
highlights the need for fairer evaluation protocols and stronger alignment with
human preferences. The source code and dataset are publicly available at:
https://urrealhero.github.io/judgeanythingweb/.Summary
AI-Generated Summary