ChatPaper.aiChatPaper

Richter für Alles: MLLM als Richter über jegliche Modalität

Judge Anything: MLLM as a Judge Across Any Modality

March 21, 2025
Autoren: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
cs.AI

Zusammenfassung

Die Bewertung generativer Grundlagenmodelle auf offene multimodale Verständnis- (MMU) und Generierungsaufgaben (MMG) über verschiedene Modalitäten hinweg (z. B. Bilder, Audio, Video) stellt aufgrund der Komplexität der cross-modalen Interaktionen erhebliche Herausforderungen dar. In diesem Zusammenhang hat sich die Idee etabliert, Multimodale LLMs (MLLMs) als automatisierte Bewerter einzusetzen, mit ermutigenden Ergebnissen bei der Bewertung von Aufgaben im Bereich des visuell-sprachlichen Verständnisses. Dieser Beitrag erweitert den Ansatz von MLLM-as-a-Judge auf eine einheitliche Weise über Modalitäten hinweg, indem zwei Benchmarks eingeführt werden: TaskAnything und JudgeAnything, um jeweils die Gesamtleistung und die Bewertungsfähigkeiten von MLLMs bei Any-to-Any-Modalitätsaufgaben zu evaluieren. Konkret bewertet TaskAnything die MMU- und MMG-Fähigkeiten über 15 Any-to-Any-Modalitätskategorien hinweg, wobei 1.500 Abfragen aus etablierten Benchmarks verwendet werden. Darüber hinaus evaluiert JudgeAnything die Bewertungsfähigkeiten von fünf fortschrittlichen Modellen (z. B. GPT-4o und Gemini-2.0-Flash) aus den Perspektiven des Paarvergleichs und der Bewertung von Punktzahlen, wobei ein standardisierter Testrahmen bereitgestellt wird, der menschliche Urteile und detaillierte Bewertungskriterien einbezieht. Unsere umfangreichen Experimente zeigen, dass diese MLLMs zwar vielversprechende Ergebnisse bei der Bewertung von MMU-Aufgaben erzielen (d. h. durchschnittlich 66,55 % im Paarvergleich und 42,79 % bei der Bewertung von Punktzahlen), jedoch erhebliche Schwierigkeiten mit MMG-Aufgaben haben (d. h. durchschnittlich nur 53,37 % im Paarvergleich und 30,05 % bei der Bewertung von Punktzahlen), was auf cross-modale Verzerrungen und Halluzinationsprobleme hinweist. Um dies zu adressieren, präsentieren wir OmniArena, eine automatisierte Plattform zur Bewertung von Omni-Modellen und multimodalen Belohnungsmodellen. Unsere Arbeit unterstreicht die Notwendigkeit fairerer Bewertungsprotokolle und einer stärkeren Ausrichtung an menschlichen Präferenzen. Der Quellcode und der Datensatz sind öffentlich verfügbar unter: https://urrealhero.github.io/judgeanythingweb/.
English
Evaluating generative foundation models on open-ended multimodal understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g., images, audio, video) poses significant challenges due to the complexity of cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs (MLLMs) as automated judges has emerged, with encouraging results in assessing vision-language understanding tasks. Moving further, this paper extends MLLM-as-a-Judge across modalities to a unified manner by introducing two benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the overall performance and judging capabilities of MLLMs across any-to-any modality tasks. Specifically, TaskAnything evaluates the MMU and MMG capabilities across 15 any-to-any modality categories, employing 1,500 queries curated from well-established benchmarks. Furthermore, JudgeAnything evaluates the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from the perspectives of Pair Comparison and Score Evaluation, providing a standardized testbed that incorporates human judgments and detailed rubrics. Our extensive experiments reveal that while these MLLMs show promise in assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting and 42.79% in Score Evaluation setting), they encounter significant challenges with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and 30.05% in Score Evaluation setting), exposing cross-modality biases and hallucination issues. To address this, we present OmniArena, an automated platform for evaluating omni-models and multimodal reward models. Our work highlights the need for fairer evaluation protocols and stronger alignment with human preferences. The source code and dataset are publicly available at: https://urrealhero.github.io/judgeanythingweb/.

Summary

AI-Generated Summary

PDF192March 25, 2025