Indagine MME: Un'indagine esaustiva sull'valutazione dei Modelli Linguaggio Multimodali.
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs
November 22, 2024
Autori: Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He
cs.AI
Abstract
Come una direzione prominente dell'Intelligenza Artificiale Generale (AGI), i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) hanno attirato un'attenzione crescente sia dall'industria che dall'accademia. Basandosi sui LLM preaddestrati, questa famiglia di modelli sviluppa ulteriormente le capacità di percezione e ragionamento multimodali che sono impressionanti, come scrivere codice dato un diagramma di flusso o creare storie basate su un'immagine. Nel processo di sviluppo, la valutazione è critica poiché fornisce un feedback intuitivo e una guida per migliorare i modelli. Diversamente dal tradizionale paradigma di addestramento-valutazione-test che favorisce solo un singolo compito come la classificazione delle immagini, la versatilità dei MLLMs ha stimolato la nascita di vari nuovi benchmark e metodi di valutazione. In questo articolo, ci proponiamo di presentare un'indagine completa sulla valutazione dei MLLMs, discutendo quattro aspetti chiave: 1) i tipi di benchmark riassunti divisi per le capacità di valutazione, inclusi le capacità fondamentali, l'autoanalisi del modello e le applicazioni estese; 2) il tipico processo di costruzione del benchmark, composto dalla raccolta dati, annotazione e precauzioni; 3) il metodo di valutazione sistematica composto da giudici, metriche e strumenti; 4) le prospettive per il prossimo benchmark. Questo lavoro mira a offrire ai ricercatori una comprensione semplice su come valutare efficacemente i MLLMs secondo esigenze diverse e a ispirare migliori metodi di valutazione, spingendo così avanti la ricerca sui MLLMs.
English
As a prominent direction of Artificial General Intelligence (AGI), Multimodal
Large Language Models (MLLMs) have garnered increased attention from both
industry and academia. Building upon pre-trained LLMs, this family of models
further develops multimodal perception and reasoning capabilities that are
impressive, such as writing code given a flow chart or creating stories based
on an image. In the development process, evaluation is critical since it
provides intuitive feedback and guidance on improving models. Distinct from the
traditional train-eval-test paradigm that only favors a single task like image
classification, the versatility of MLLMs has spurred the rise of various new
benchmarks and evaluation methods. In this paper, we aim to present a
comprehensive survey of MLLM evaluation, discussing four key aspects: 1) the
summarised benchmarks types divided by the evaluation capabilities, including
foundation capabilities, model self-analysis, and extented applications; 2) the
typical process of benchmark counstruction, consisting of data collection,
annotation, and precautions; 3) the systematic evaluation manner composed of
judge, metric, and toolkit; 4) the outlook for the next benchmark. This work
aims to offer researchers an easy grasp of how to effectively evaluate MLLMs
according to different needs and to inspire better evaluation methods, thereby
driving the progress of MLLM research.Summary
AI-Generated Summary