UPME: Un Framework di Peer Review Non Supervisionato per la Valutazione di Modelli Linguistici Multimodali di Grande Scala
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation
March 19, 2025
Autori: Qihui Zhang, Munan Ning, Zheyuan Liu, Yanbo Wang, Jiayi Ye, Yue Huang, Shuo Yang, Xiao Chen, Yibing Song, Li Yuan
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLM) sono emersi per affrontare le sfide del Visual Question Answering (VQA), dando vita a un nuovo filone di ricerca focalizzato sulla conduzione di valutazioni oggettive di questi modelli. I metodi di valutazione esistenti presentano limitazioni dovute al significativo carico di lavoro umano richiesto per progettare coppie di domande e risposte per immagini visive, il che intrinsecamente restringe la scala e l'ambito delle valutazioni. Sebbene gli approcci automatizzati MLLM-as-judge tentino di ridurre il carico di lavoro umano attraverso valutazioni automatiche, spesso introducono distorsioni. Per affrontare questi problemi, proponiamo un framework di valutazione MLLM basato su Peer Review non supervisionato. Questo framework utilizza esclusivamente dati immagine, consentendo ai modelli di generare automaticamente domande e condurre valutazioni peer review delle risposte provenienti da altri modelli, alleviando efficacemente la dipendenza dal carico di lavoro umano. Inoltre, introduciamo un sistema di punteggio visione-linguaggio per mitigare i problemi di distorsione, che si concentra su tre aspetti: (i) correttezza della risposta; (ii) comprensione e ragionamento visivo; e (iii) correlazione immagine-testo. I risultati sperimentali dimostrano che UPME raggiunge una correlazione di Pearson di 0.944 con le valutazioni umane sul dataset MMstar e di 0.814 sul dataset ScienceQA, indicando che il nostro framework si allinea strettamente con benchmark progettati da esseri umani e con le preferenze intrinseche degli stessi.
English
Multimodal Large Language Models (MLLMs) have emerged to tackle the
challenges of Visual Question Answering (VQA), sparking a new research focus on
conducting objective evaluations of these models. Existing evaluation methods
face limitations due to the significant human workload required to design Q&A
pairs for visual images, which inherently restricts the scale and scope of
evaluations. Although automated MLLM-as-judge approaches attempt to reduce the
human workload through automatic evaluations, they often introduce biases. To
address these problems, we propose an Unsupervised Peer review MLLM Evaluation
framework. It utilizes only image data, allowing models to automatically
generate questions and conduct peer review assessments of answers from other
models, effectively alleviating the reliance on human workload. Additionally,
we introduce the vision-language scoring system to mitigate the bias issues,
which focuses on three aspects: (i) response correctness; (ii) visual
understanding and reasoning; and (iii) image-text correlation. Experimental
results demonstrate that UPME achieves a Pearson correlation of 0.944 with
human evaluations on the MMstar dataset and 0.814 on the ScienceQA dataset,
indicating that our framework closely aligns with human-designed benchmarks and
inherent human preferences.Summary
AI-Generated Summary