Giudicare Qualsiasi Cosa: MLLM come Giudice Attraverso Qualsiasi Modalità
Judge Anything: MLLM as a Judge Across Any Modality
March 21, 2025
Autori: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
cs.AI
Abstract
Valutare i modelli generativi di base su compiti di comprensione (MMU) e generazione (MMG) multimodale aperta attraverso diverse modalità (ad esempio, immagini, audio, video) presenta sfide significative a causa della complessità delle interazioni cross-modali. A tal fine, è emersa l'idea di utilizzare i Modelli Linguistici Multimodali (MLLM) come giudici automatizzati, con risultati incoraggianti nella valutazione di compiti di comprensione visivo-linguistica. Proseguendo, questo articolo estende il concetto di MLLM-as-a-Judge attraverso le modalità in modo unificato introducendo due benchmark, TaskAnything e JudgeAnything, per valutare rispettivamente le prestazioni complessive e le capacità di giudizio degli MLLM su compiti any-to-any multimodali. Nello specifico, TaskAnything valuta le capacità di MMU e MMG attraverso 15 categorie any-to-any multimodali, impiegando 1.500 query selezionate da benchmark consolidati. Inoltre, JudgeAnything valuta le capacità di giudizio di 5 modelli avanzati (ad esempio, GPT-4o e Gemini-2.0-Flash) dalle prospettive di Confronto a Coppie e Valutazione del Punteggio, fornendo un banco di prova standardizzato che incorpora giudizi umani e rubriche dettagliate. I nostri esperimenti estesi rivelano che, sebbene questi MLLM mostrino promesse nella valutazione della MMU (ovvero, raggiungendo una media del 66,55% nel contesto di Confronto a Coppie e del 42,79% nel contesto di Valutazione del Punteggio), incontrano sfide significative con i compiti di MMG (ovvero, con una media di solo il 53,37% nel contesto di Confronto a Coppie e del 30,05% nel contesto di Valutazione del Punteggio), esponendo bias cross-modali e problemi di allucinazione. Per affrontare ciò, presentiamo OmniArena, una piattaforma automatizzata per valutare modelli omni e modelli di ricompensa multimodali. Il nostro lavoro evidenzia la necessità di protocolli di valutazione più equi e di un allineamento più forte con le preferenze umane. Il codice sorgente e il dataset sono disponibili pubblicamente all'indirizzo: https://urrealhero.github.io/judgeanythingweb/.
English
Evaluating generative foundation models on open-ended multimodal
understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g.,
images, audio, video) poses significant challenges due to the complexity of
cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs
(MLLMs) as automated judges has emerged, with encouraging results in assessing
vision-language understanding tasks. Moving further, this paper extends
MLLM-as-a-Judge across modalities to a unified manner by introducing two
benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the
overall performance and judging capabilities of MLLMs across any-to-any
modality tasks. Specifically, TaskAnything evaluates the MMU and MMG
capabilities across 15 any-to-any modality categories, employing 1,500 queries
curated from well-established benchmarks. Furthermore, JudgeAnything evaluates
the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from
the perspectives of Pair Comparison and Score Evaluation, providing a
standardized testbed that incorporates human judgments and detailed rubrics.
Our extensive experiments reveal that while these MLLMs show promise in
assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting
and 42.79% in Score Evaluation setting), they encounter significant challenges
with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and
30.05% in Score Evaluation setting), exposing cross-modality biases and
hallucination issues. To address this, we present OmniArena, an automated
platform for evaluating omni-models and multimodal reward models. Our work
highlights the need for fairer evaluation protocols and stronger alignment with
human preferences. The source code and dataset are publicly available at:
https://urrealhero.github.io/judgeanythingweb/.Summary
AI-Generated Summary