Sfidare i confini del ragionamento: un benchmark matematico di livello olimpico per i grandi modelli linguistici
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models
March 27, 2025
Autori: Haoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen
cs.AI
Abstract
Negli ultimi anni, il rapido sviluppo di modelli di ragionamento su larga scala ha portato alla saturazione dei benchmark esistenti per la valutazione del ragionamento matematico, evidenziando l'urgente necessità di framework di valutazione più impegnativi e rigorosi. Per colmare questa lacuna, introduciamo OlymMATH, un nuovo benchmark matematico di livello olimpico, progettato per testare rigorosamente le capacità di ragionamento complesso dei modelli linguistici di grandi dimensioni (LLM). OlymMATH presenta 200 problemi accuratamente selezionati, ciascuno verificato manualmente e disponibile in versioni parallele in inglese e cinese. I problemi sono organizzati sistematicamente in due livelli di difficoltà distinti: (1) problemi di livello AIME (facili) che stabiliscono una linea di base per la valutazione del ragionamento matematico, e (2) problemi significativamente più impegnativi (difficili) progettati per spingere i limiti dei modelli all'avanguardia attuali. Nel nostro benchmark, questi problemi coprono quattro campi matematici fondamentali, ciascuno includendo una soluzione numerica verificabile per consentire una valutazione oggettiva e basata su regole. I risultati empirici sottolineano la significativa sfida rappresentata da OlymMATH, con modelli all'avanguardia come DeepSeek-R1 e OpenAI's o3-mini che dimostrano un'accuratezza notevolmente limitata sul sottoinsieme difficile. Inoltre, il benchmark facilita una valutazione bilingue completa delle capacità di ragionamento matematico, una dimensione critica che rimane largamente non affrontata nei benchmark mainstream di ragionamento matematico. Rilasciamo il benchmark OlymMATH nel progetto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In recent years, the rapid development of large reasoning models has resulted
in the saturation of existing benchmarks for evaluating mathematical reasoning,
highlighting the urgent need for more challenging and rigorous evaluation
frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level
mathematical benchmark, designed to rigorously test the complex reasoning
capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each
manually verified and available in parallel English and Chinese versions. The
problems are systematically organized into two distinct difficulty tiers: (1)
AIME-level problems (easy) that establish a baseline for mathematical reasoning
assessment, and (2) significantly more challenging problems (hard) designed to
push the boundaries of current state-of-the-art models. In our benchmark, these
problems span four core mathematical fields, each including a verifiable
numerical solution to enable objective, rule-based evaluation. Empirical
results underscore the significant challenge presented by OlymMATH, with
state-of-the-art models including DeepSeek-R1 and OpenAI's o3-mini
demonstrating notably limited accuracy on the hard subset. Furthermore, the
benchmark facilitates comprehensive bilingual assessment of mathematical
reasoning abilities-a critical dimension that remains largely unaddressed in
mainstream mathematical reasoning benchmarks. We release the OlymMATH benchmark
at the STILL project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.Summary
AI-Generated Summary