MDK12-Bench: Un Benchmark Multidisciplinare per Valutare il Ragionamento nei Modelli Linguistici Multimodali di Grande Scala
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models
April 8, 2025
Autori: Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
cs.AI
Abstract
Il ragionamento multimodale, che integra linguaggio e segnali visivi nella risoluzione di problemi e nel processo decisionale, rappresenta un aspetto fondamentale dell'intelligenza umana e un passo cruciale verso l'intelligenza artificiale generale. Tuttavia, la valutazione delle capacità di ragionamento multimodale nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) rimane inadeguata. La maggior parte dei benchmark di ragionamento esistenti è limitata da dimensioni ridotte dei dati, copertura ristretta dei domini e distribuzione non strutturata della conoscenza. Per colmare queste lacune, introduciamo MDK12-Bench, un benchmark multidisciplinare che valuta le capacità di ragionamento degli MLLMs attraverso esami reali del percorso scolastico K-12. Abbracciando sei discipline (matematica, fisica, chimica, biologia, geografia e informatica), il nostro benchmark comprende 140K istanze di ragionamento che coprono diversi livelli di difficoltà dalla scuola primaria al 12° grado. Presenta 6.827 annotazioni a livello di istanza basate su una struttura di conoscenza ben organizzata, spiegazioni dettagliate delle risposte, etichette di difficoltà e partizioni trasversali agli anni, fornendo una piattaforma robusta per una valutazione completa. Inoltre, proponiamo un nuovo framework di valutazione dinamica per mitigare i problemi di contaminazione dei dati, generando dinamicamente forme di domanda, tipi di domanda e stili di immagini durante la valutazione. Esperimenti estesi su MDK12-Bench rivelano le significative limitazioni degli attuali MLLMs nel ragionamento multimodale. I risultati ottenuti sul nostro benchmark offrono spunti per lo sviluppo delle prossime generazioni di modelli. I nostri dati e codici sono disponibili su https://github.com/LanceZPF/MDK12.
English
Multimodal reasoning, which integrates language and visual cues into problem
solving and decision making, is a fundamental aspect of human intelligence and
a crucial step toward artificial general intelligence. However, the evaluation
of multimodal reasoning capabilities in Multimodal Large Language Models
(MLLMs) remains inadequate. Most existing reasoning benchmarks are constrained
by limited data size, narrow domain coverage, and unstructured knowledge
distribution. To close these gaps, we introduce MDK12-Bench, a
multi-disciplinary benchmark assessing the reasoning capabilities of MLLMs via
real-world K-12 examinations. Spanning six disciplines (math, physics,
chemistry, biology, geography, and information science), our benchmark
comprises 140K reasoning instances across diverse difficulty levels from
primary school to 12th grade. It features 6,827 instance-level knowledge point
annotations based on a well-organized knowledge structure, detailed answer
explanations, difficulty labels and cross-year partitions, providing a robust
platform for comprehensive evaluation. Additionally, we present a novel dynamic
evaluation framework to mitigate data contamination issues by bootstrapping
question forms, question types, and image styles during evaluation. Extensive
experiment on MDK12-Bench reveals the significant limitation of current MLLMs
in multimodal reasoning. The findings on our benchmark provide insights into
the development of the next-generation models. Our data and codes are available
at https://github.com/LanceZPF/MDK12.Summary
AI-Generated Summary