Herausforderung der Grenzen des logischen Denkens: Ein mathematischer Benchmark auf Olympiade-Niveau für große Sprachmodelle
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models
March 27, 2025
Autoren: Haoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen
cs.AI
Zusammenfassung
In den letzten Jahren hat die rasante Entwicklung großer Reasoning-Modelle zur Sättigung bestehender Benchmarks für die Bewertung mathematischen Denkens geführt, was den dringenden Bedarf an anspruchsvolleren und rigoroseren Evaluierungsrahmen verdeutlicht. Um diese Lücke zu schließen, stellen wir OlymMATH vor, einen neuartigen Benchmark auf Olympiaden-Niveau, der darauf abzielt, die komplexen Reasoning-Fähigkeiten von LLMs (Large Language Models) rigoros zu testen. OlymMATH umfasst 200 sorgfältig kuratierte Aufgaben, die manuell überprüft und in parallelen englischen und chinesischen Versionen verfügbar sind. Die Aufgaben sind systematisch in zwei unterschiedliche Schwierigkeitsstufen unterteilt: (1) AIME-Level-Aufgaben (einfach), die eine Baseline für die Bewertung mathematischen Denkens schaffen, und (2) deutlich anspruchsvollere Aufgaben (schwierig), die die Grenzen der aktuellen State-of-the-Art-Modelle ausloten sollen. In unserem Benchmark decken diese Aufgaben vier zentrale mathematische Bereiche ab, wobei jede Aufgabe eine überprüfbare numerische Lösung enthält, um eine objektive, regelbasierte Bewertung zu ermöglichen. Empirische Ergebnisse unterstreichen die erhebliche Herausforderung, die OlymMATH darstellt, wobei State-of-the-Art-Modelle wie DeepSeek-R1 und OpenAI's o3-mini auf den schwierigen Aufgaben nur begrenzte Genauigkeit zeigen. Darüber hinaus ermöglicht der Benchmark eine umfassende bilinguale Bewertung mathematischer Denkfähigkeiten – ein kritischer Aspekt, der in gängigen Benchmarks für mathematisches Denken weitgehend unberücksichtigt bleibt. Wir veröffentlichen den OlymMATH-Benchmark im Rahmen des STILL-Projekts: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In recent years, the rapid development of large reasoning models has resulted
in the saturation of existing benchmarks for evaluating mathematical reasoning,
highlighting the urgent need for more challenging and rigorous evaluation
frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level
mathematical benchmark, designed to rigorously test the complex reasoning
capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each
manually verified and available in parallel English and Chinese versions. The
problems are systematically organized into two distinct difficulty tiers: (1)
AIME-level problems (easy) that establish a baseline for mathematical reasoning
assessment, and (2) significantly more challenging problems (hard) designed to
push the boundaries of current state-of-the-art models. In our benchmark, these
problems span four core mathematical fields, each including a verifiable
numerical solution to enable objective, rule-based evaluation. Empirical
results underscore the significant challenge presented by OlymMATH, with
state-of-the-art models including DeepSeek-R1 and OpenAI's o3-mini
demonstrating notably limited accuracy on the hard subset. Furthermore, the
benchmark facilitates comprehensive bilingual assessment of mathematical
reasoning abilities-a critical dimension that remains largely unaddressed in
mainstream mathematical reasoning benchmarks. We release the OlymMATH benchmark
at the STILL project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.Summary
AI-Generated Summary