VisualPuzzles: Separare la Valutazione del Ragionamento Multimodale dalla Conoscenza del Dominio
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge
April 14, 2025
Autori: Yueqi Song, Tianyue Ou, Yibo Kong, Zecheng Li, Graham Neubig, Xiang Yue
cs.AI
Abstract
I benchmark multimodali attuali spesso confondono il ragionamento con la conoscenza specifica del dominio, rendendo difficile isolare e valutare le capacità di ragionamento generale in contesti non specialistici. Per affrontare questo problema, introduciamo VisualPuzzles, un benchmark che si concentra sul ragionamento visivo riducendo deliberatamente la dipendenza da conoscenze specialistiche. VisualPuzzles è composto da domande diversificate che coprono cinque categorie: ragionamento algoritmico, analogico, deduttivo, induttivo e spaziale. Una delle principali fonti delle nostre domande è la traduzione manuale di quesiti di ragionamento logico tratti dall'esame per il servizio civile cinese. Gli esperimenti dimostrano che VisualPuzzles richiede una conoscenza specifica del dominio significativamente meno intensiva e un ragionamento più complesso rispetto a benchmark come MMMU, permettendoci di valutare meglio il ragionamento multimodale genuino. Le valutazioni mostrano che i modelli linguistici multimodali all'avanguardia rimangono costantemente indietro rispetto alle prestazioni umane su VisualPuzzles, e che un forte rendimento su benchmark ad alta intensità di conoscenza non si traduce necessariamente in successo su compiti focalizzati sul ragionamento e a bassa intensità di conoscenza. Inoltre, i miglioramenti nel ragionamento, come l'aumento della potenza di calcolo per l'inferenza (con modalità di "pensiero"), producono guadagni inconsistenti tra i modelli e i tipi di compito, e non osserviamo una chiara correlazione tra la dimensione del modello e le prestazioni. Abbiamo anche riscontrato che i modelli mostrano schemi di ragionamento e risposta diversi su VisualPuzzles rispetto a benchmark che enfatizzano maggiormente la conoscenza. VisualPuzzles offre una lente più chiara attraverso cui valutare le capacità di ragionamento al di là del richiamo di fatti e della conoscenza del dominio.
English
Current multimodal benchmarks often conflate reasoning with domain-specific
knowledge, making it difficult to isolate and evaluate general reasoning
abilities in non-expert settings. To address this, we introduce VisualPuzzles,
a benchmark that targets visual reasoning while deliberately minimizing
reliance on specialized knowledge. VisualPuzzles consists of diverse questions
spanning five categories: algorithmic, analogical, deductive, inductive, and
spatial reasoning. One major source of our questions is manually translated
logical reasoning questions from the Chinese Civil Service Examination.
Experiments show that VisualPuzzles requires significantly less intensive
domain-specific knowledge and more complex reasoning compared to benchmarks
like MMMU, enabling us to better evaluate genuine multimodal reasoning.
Evaluations show that state-of-the-art multimodal large language models
consistently lag behind human performance on VisualPuzzles, and that strong
performance on knowledge-intensive benchmarks does not necessarily translate to
success on reasoning-focused, knowledge-light tasks. Additionally, reasoning
enhancements such as scaling up inference compute (with "thinking" modes) yield
inconsistent gains across models and task types, and we observe no clear
correlation between model size and performance. We also found that models
exhibit different reasoning and answering patterns on VisualPuzzles compared to
benchmarks with heavier emphasis on knowledge. VisualPuzzles offers a clearer
lens through which to evaluate reasoning capabilities beyond factual recall and
domain knowledge.Summary
AI-Generated Summary