ChatPaper.aiChatPaper

Giudicare Qualsiasi Cosa: MLLM come Giudice Attraverso Qualsiasi Modalità

Judge Anything: MLLM as a Judge Across Any Modality

March 21, 2025
Autori: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
cs.AI

Abstract

Valutare i modelli generativi di base su compiti di comprensione (MMU) e generazione (MMG) multimodale aperta attraverso diverse modalità (ad esempio, immagini, audio, video) presenta sfide significative a causa della complessità delle interazioni cross-modali. A tal fine, è emersa l'idea di utilizzare i Modelli Linguistici Multimodali (MLLM) come giudici automatizzati, con risultati incoraggianti nella valutazione di compiti di comprensione visivo-linguistica. Proseguendo, questo articolo estende il concetto di MLLM-as-a-Judge attraverso le modalità in modo unificato introducendo due benchmark, TaskAnything e JudgeAnything, per valutare rispettivamente le prestazioni complessive e le capacità di giudizio degli MLLM su compiti any-to-any multimodali. Nello specifico, TaskAnything valuta le capacità di MMU e MMG attraverso 15 categorie any-to-any multimodali, impiegando 1.500 query selezionate da benchmark consolidati. Inoltre, JudgeAnything valuta le capacità di giudizio di 5 modelli avanzati (ad esempio, GPT-4o e Gemini-2.0-Flash) dalle prospettive di Confronto a Coppie e Valutazione del Punteggio, fornendo un banco di prova standardizzato che incorpora giudizi umani e rubriche dettagliate. I nostri esperimenti estesi rivelano che, sebbene questi MLLM mostrino promesse nella valutazione della MMU (ovvero, raggiungendo una media del 66,55% nel contesto di Confronto a Coppie e del 42,79% nel contesto di Valutazione del Punteggio), incontrano sfide significative con i compiti di MMG (ovvero, con una media di solo il 53,37% nel contesto di Confronto a Coppie e del 30,05% nel contesto di Valutazione del Punteggio), esponendo bias cross-modali e problemi di allucinazione. Per affrontare ciò, presentiamo OmniArena, una piattaforma automatizzata per valutare modelli omni e modelli di ricompensa multimodali. Il nostro lavoro evidenzia la necessità di protocolli di valutazione più equi e di un allineamento più forte con le preferenze umane. Il codice sorgente e il dataset sono disponibili pubblicamente all'indirizzo: https://urrealhero.github.io/judgeanythingweb/.
English
Evaluating generative foundation models on open-ended multimodal understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g., images, audio, video) poses significant challenges due to the complexity of cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs (MLLMs) as automated judges has emerged, with encouraging results in assessing vision-language understanding tasks. Moving further, this paper extends MLLM-as-a-Judge across modalities to a unified manner by introducing two benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the overall performance and judging capabilities of MLLMs across any-to-any modality tasks. Specifically, TaskAnything evaluates the MMU and MMG capabilities across 15 any-to-any modality categories, employing 1,500 queries curated from well-established benchmarks. Furthermore, JudgeAnything evaluates the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from the perspectives of Pair Comparison and Score Evaluation, providing a standardized testbed that incorporates human judgments and detailed rubrics. Our extensive experiments reveal that while these MLLMs show promise in assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting and 42.79% in Score Evaluation setting), they encounter significant challenges with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and 30.05% in Score Evaluation setting), exposing cross-modality biases and hallucination issues. To address this, we present OmniArena, an automated platform for evaluating omni-models and multimodal reward models. Our work highlights the need for fairer evaluation protocols and stronger alignment with human preferences. The source code and dataset are publicly available at: https://urrealhero.github.io/judgeanythingweb/.

Summary

AI-Generated Summary

PDF202March 25, 2025