AIMO-2-Gewinnerlösung: Entwicklung von State-of-the-Art-Modellen für mathematisches Denken mit dem OpenMathReasoning-Datensatz
AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset
April 23, 2025
Autoren: Ivan Moshkov, Darragh Hanley, Ivan Sorokin, Shubham Toshniwal, Christof Henkel, Benedikt Schifferer, Wei Du, Igor Gitman
cs.AI
Zusammenfassung
Dieses Papier präsentiert unseren siegreichen Beitrag zum AI Mathematical Olympiad - Progress Prize 2 (AIMO-2) Wettbewerb. Unser Ansatz zur Entwicklung von State-of-the-Art-Modellen für mathematisches Denken basiert auf drei zentralen Säulen. Erstens erstellen wir einen umfangreichen Datensatz, der 540K einzigartige, hochwertige mathematische Probleme, einschließlich Olympiade-Problemen, und ihre 3,2M langen Lösungswege umfasst. Zweitens entwickeln wir eine neuartige Methode, um Code-Ausführung mit Modellen für lange Lösungswege durch iteratives Training, Generierung und Qualitätsfilterung zu integrieren, was zu 1,7M hochwertigen Tool-Integrated Reasoning-Lösungen führt. Drittens erstellen wir eine Pipeline, um Modelle so zu trainieren, dass sie die vielversprechendste Lösung aus vielen Kandidaten auswählen. Wir zeigen, dass eine solche generative Lösungsauswahl (GenSelect) den Baseline-Ansatz der Mehrheitsentscheidung signifikant verbessern kann. Durch die Kombination dieser Ideen trainieren wir eine Reihe von Modellen, die State-of-the-Art-Ergebnisse auf Benchmarks für mathematisches Denken erzielen. Um die weitere Forschung zu fördern, veröffentlichen wir unseren Code, die Modelle und den vollständigen OpenMathReasoning-Datensatz unter einer kommerziell freizügigen Lizenz.
English
This paper presents our winning submission to the AI Mathematical Olympiad -
Progress Prize 2 (AIMO-2) competition. Our recipe for building state-of-the-art
mathematical reasoning models relies on three key pillars. First, we create a
large-scale dataset comprising 540K unique high-quality math problems,
including olympiad-level problems, and their 3.2M long-reasoning solutions.
Second, we develop a novel method to integrate code execution with long
reasoning models through iterative training, generation, and quality filtering,
resulting in 1.7M high-quality Tool-Integrated Reasoning solutions. Third, we
create a pipeline to train models to select the most promising solution from
many candidates. We show that such generative solution selection (GenSelect)
can significantly improve upon majority voting baseline. Combining these ideas,
we train a series of models that achieve state-of-the-art results on
mathematical reasoning benchmarks. To facilitate further research, we release
our code, models, and the complete OpenMathReasoning dataset under a
commercially permissive license.Summary
AI-Generated Summary