AIMO-2 Winningsoplossing: Het Bouwen van State-of-the-Art Wiskundige Redeneermodellen met het OpenMathReasoning-dataset
AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset
April 23, 2025
Auteurs: Ivan Moshkov, Darragh Hanley, Ivan Sorokin, Shubham Toshniwal, Christof Henkel, Benedikt Schifferer, Wei Du, Igor Gitman
cs.AI
Samenvatting
Dit artikel presenteert onze winnende inzending voor de AI Mathematical Olympiad - Progress Prize 2 (AIMO-2) competitie. Onze aanpak voor het bouwen van state-of-the-art modellen voor wiskundig redeneren steunt op drie belangrijke pijlers. Ten eerste creëren we een grootschalige dataset bestaande uit 540K unieke hoogwaardige wiskundige problemen, waaronder olympiadeniveau problemen, en hun 3.2M lange-redenering oplossingen. Ten tweede ontwikkelen we een nieuwe methode om code-uitvoering te integreren met lange-redenering modellen door middel van iteratieve training, generatie en kwaliteitsfiltering, wat resulteert in 1.7M hoogwaardige Tool-Integrated Reasoning oplossingen. Ten derde creëren we een pijplijn om modellen te trainen om de meest veelbelovende oplossing te selecteren uit vele kandidaten. We tonen aan dat dergelijke generatieve oplossingsselectie (GenSelect) aanzienlijk kan verbeteren ten opzichte van een meerderheidsstemming baseline. Door deze ideeën te combineren, trainen we een reeks modellen die state-of-the-art resultaten behalen op benchmarks voor wiskundig redeneren. Om verder onderzoek te faciliteren, maken we onze code, modellen en de volledige OpenMathReasoning dataset beschikbaar onder een commercieel toelaatbare licentie.
English
This paper presents our winning submission to the AI Mathematical Olympiad -
Progress Prize 2 (AIMO-2) competition. Our recipe for building state-of-the-art
mathematical reasoning models relies on three key pillars. First, we create a
large-scale dataset comprising 540K unique high-quality math problems,
including olympiad-level problems, and their 3.2M long-reasoning solutions.
Second, we develop a novel method to integrate code execution with long
reasoning models through iterative training, generation, and quality filtering,
resulting in 1.7M high-quality Tool-Integrated Reasoning solutions. Third, we
create a pipeline to train models to select the most promising solution from
many candidates. We show that such generative solution selection (GenSelect)
can significantly improve upon majority voting baseline. Combining these ideas,
we train a series of models that achieve state-of-the-art results on
mathematical reasoning benchmarks. To facilitate further research, we release
our code, models, and the complete OpenMathReasoning dataset under a
commercially permissive license.Summary
AI-Generated Summary