ChatPaper.aiChatPaper

VisualPuzzles: Separare la Valutazione del Ragionamento Multimodale dalla Conoscenza del Dominio

VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge

April 14, 2025
Autori: Yueqi Song, Tianyue Ou, Yibo Kong, Zecheng Li, Graham Neubig, Xiang Yue
cs.AI

Abstract

I benchmark multimodali attuali spesso confondono il ragionamento con la conoscenza specifica del dominio, rendendo difficile isolare e valutare le capacità di ragionamento generale in contesti non specialistici. Per affrontare questo problema, introduciamo VisualPuzzles, un benchmark che si concentra sul ragionamento visivo riducendo deliberatamente la dipendenza da conoscenze specialistiche. VisualPuzzles è composto da domande diversificate che coprono cinque categorie: ragionamento algoritmico, analogico, deduttivo, induttivo e spaziale. Una delle principali fonti delle nostre domande è la traduzione manuale di quesiti di ragionamento logico tratti dall'esame per il servizio civile cinese. Gli esperimenti dimostrano che VisualPuzzles richiede una conoscenza specifica del dominio significativamente meno intensiva e un ragionamento più complesso rispetto a benchmark come MMMU, permettendoci di valutare meglio il ragionamento multimodale genuino. Le valutazioni mostrano che i modelli linguistici multimodali all'avanguardia rimangono costantemente indietro rispetto alle prestazioni umane su VisualPuzzles, e che un forte rendimento su benchmark ad alta intensità di conoscenza non si traduce necessariamente in successo su compiti focalizzati sul ragionamento e a bassa intensità di conoscenza. Inoltre, i miglioramenti nel ragionamento, come l'aumento della potenza di calcolo per l'inferenza (con modalità di "pensiero"), producono guadagni inconsistenti tra i modelli e i tipi di compito, e non osserviamo una chiara correlazione tra la dimensione del modello e le prestazioni. Abbiamo anche riscontrato che i modelli mostrano schemi di ragionamento e risposta diversi su VisualPuzzles rispetto a benchmark che enfatizzano maggiormente la conoscenza. VisualPuzzles offre una lente più chiara attraverso cui valutare le capacità di ragionamento al di là del richiamo di fatti e della conoscenza del dominio.
English
Current multimodal benchmarks often conflate reasoning with domain-specific knowledge, making it difficult to isolate and evaluate general reasoning abilities in non-expert settings. To address this, we introduce VisualPuzzles, a benchmark that targets visual reasoning while deliberately minimizing reliance on specialized knowledge. VisualPuzzles consists of diverse questions spanning five categories: algorithmic, analogical, deductive, inductive, and spatial reasoning. One major source of our questions is manually translated logical reasoning questions from the Chinese Civil Service Examination. Experiments show that VisualPuzzles requires significantly less intensive domain-specific knowledge and more complex reasoning compared to benchmarks like MMMU, enabling us to better evaluate genuine multimodal reasoning. Evaluations show that state-of-the-art multimodal large language models consistently lag behind human performance on VisualPuzzles, and that strong performance on knowledge-intensive benchmarks does not necessarily translate to success on reasoning-focused, knowledge-light tasks. Additionally, reasoning enhancements such as scaling up inference compute (with "thinking" modes) yield inconsistent gains across models and task types, and we observe no clear correlation between model size and performance. We also found that models exhibit different reasoning and answering patterns on VisualPuzzles compared to benchmarks with heavier emphasis on knowledge. VisualPuzzles offers a clearer lens through which to evaluate reasoning capabilities beyond factual recall and domain knowledge.

Summary

AI-Generated Summary

PDF92April 16, 2025