U-MATH: un benchmark di livello universitario per valutare le competenze matematiche nei LLM.

U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs

December 4, 2024
Autori: Konstantin Chernyshev, Vitaliy Polshkov, Ekaterina Artemova, Alex Myasnikov, Vlad Stepanov, Alexei Miasnikov, Sergei Tilga
cs.AI

Abstract

La valutazione attuale delle competenze matematiche nei LLM è limitata, poiché i benchmark esistenti sono o relativamente piccoli, si concentrano principalmente su problemi di scuola elementare e superiore, oppure mancano di diversità nei temi. Inoltre, l'inclusione di elementi visivi nei compiti rimane in gran parte inesplorata. Per affrontare queste lacune, presentiamo U-MATH, un nuovo benchmark di 1.100 problemi inediti di livello universitario tratti da materiali didattici. È bilanciato su sei materie principali, con il 20% di problemi multimodali. Date le caratteristiche aperte dei problemi U-MATH, impieghiamo un LLM per valutare la correttezza delle soluzioni generate. A tal fine, rilasciamo mu-MATH, un dataset per valutare le capacità dei LLM nel giudicare le soluzioni. La valutazione dei LLM di dominio generale, specifici per la matematica e multimodali mette in luce le sfide presentate da U-MATH. I nostri risultati rivelano che i LLM raggiungono una precisione massima del 63% solo nei compiti basati su testo, con un ancora più basso 45% nei problemi visivi. La valutazione delle soluzioni risulta impegnativa per i LLM, con il miglior giudice LLM che ha uno score F1 dell'80% su mu-MATH.
English
The current evaluation of mathematical skills in LLMs is limited, as existing benchmarks are either relatively small, primarily focus on elementary and high-school problems, or lack diversity in topics. Additionally, the inclusion of visual elements in tasks remains largely under-explored. To address these gaps, we introduce U-MATH, a novel benchmark of 1,100 unpublished open-ended university-level problems sourced from teaching materials. It is balanced across six core subjects, with 20% of multimodal problems. Given the open-ended nature of U-MATH problems, we employ an LLM to judge the correctness of generated solutions. To this end, we release mu-MATH, a dataset to evaluate the LLMs' capabilities in judging solutions. The evaluation of general domain, math-specific, and multimodal LLMs highlights the challenges presented by U-MATH. Our findings reveal that LLMs achieve a maximum accuracy of only 63% on text-based tasks, with even lower 45% on visual problems. The solution assessment proves challenging for LLMs, with the best LLM judge having an F1-score of 80% on mu-MATH.

Summary

AI-Generated Summary

PDF162December 5, 2024