V-MAGE: Un Framework di Valutazione dei Giochi per Analizzare le Capacità Visivo-Centriche nei Modelli Linguistici Multimodali di Grande Scala
V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models
April 8, 2025
Autori: Xiangxi Zheng, Linjie Li, Zhengyuan Yang, Ping Yu, Alex Jinpeng Wang, Rui Yan, Yuan Yao, Lijuan Wang
cs.AI
Abstract
I recenti progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno portato a significativi miglioramenti in vari benchmark multimodali. Tuttavia, con il passaggio delle valutazioni da dataset statici a ambienti dinamici e aperti, gli attuali benchmark basati su giochi si rivelano inadeguati poiché mancano di task centrati sulla visione e non riescono a valutare le diverse abilità di ragionamento necessarie per il processo decisionale nel mondo reale. Per affrontare questa problematica, introduciamo Visual-centric Multiple Abilities Game Evaluation (V-MAGE), un framework di valutazione basato su giochi progettato per valutare le capacità di ragionamento visivo degli MLLMs. V-MAGE include cinque giochi diversi con oltre 30 livelli progettati manualmente, testando i modelli su abilità visive fondamentali come il posizionamento, il tracciamento delle traiettorie, la tempistica e la memoria visiva, insieme a ragionamenti di livello superiore come la pianificazione a lungo termine e la deliberazione. Utilizziamo V-MAGE per valutare i principali MLLMs, rivelando significative sfide nella loro percezione e ragionamento visivo. In tutti gli ambienti di gioco, i migliori MLLMs, determinati attraverso confronti di valutazione Elo, mostrano un divario di prestazioni sostanziale rispetto agli esseri umani. Le nostre scoperte evidenziano limitazioni critiche, inclusi vari tipi di errori percettivi commessi dai modelli, e suggeriscono potenziali vie di miglioramento da una prospettiva centrata sull'agente, come il perfezionamento delle strategie dell'agente e la correzione delle inesattezze percettive. Il codice è disponibile all'indirizzo https://github.com/CSU-JPG/V-MAGE.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have led to
significant improvements across various multimodal benchmarks. However, as
evaluations shift from static datasets to open-world, dynamic environments,
current game-based benchmarks remain inadequate because they lack
visual-centric tasks and fail to assess the diverse reasoning skills required
for real-world decision-making. To address this, we introduce Visual-centric
Multiple Abilities Game Evaluation (V-MAGE), a game-based evaluation framework
designed to assess visual reasoning capabilities of MLLMs. V-MAGE features five
diverse games with 30+ handcrafted levels, testing models on core visual skills
such as positioning, trajectory tracking, timing, and visual memory, alongside
higher-level reasoning like long-term planning and deliberation. We use V-MAGE
to evaluate leading MLLMs, revealing significant challenges in their visual
perception and reasoning. In all game environments, the top-performing MLLMs,
as determined by Elo rating comparisons, exhibit a substantial performance gap
compared to humans. Our findings highlight critical limitations, including
various types of perceptual errors made by the models, and suggest potential
avenues for improvement from an agent-centric perspective, such as refining
agent strategies and addressing perceptual inaccuracies. Code is available at
https://github.com/CSU-JPG/V-MAGE.Summary
AI-Generated Summary