rStar-Math: Piccoli LLM possono padroneggiare il ragionamento matematico con un pensiero profondo autoevoluto

Abstract

Presentiamo rStar-Math per dimostrare che i modelli linguistici di piccole dimensioni (SLM) possono eguagliare o addirittura superare la capacità di ragionamento matematico di OpenAI o1, senza distillazione da modelli superiori. rStar-Math raggiunge questo obiettivo esercitando un "pensiero profondo" attraverso la Ricerca ad Albero Monte Carlo (MCTS), in cui un SLM di politica matematica esegue una ricerca al momento del test guidata da un modello di ricompensa di processo basato su SLM. rStar-Math introduce tre innovazioni per affrontare le sfide nell'addestramento dei due SLM: (1) un nuovo metodo di sintesi dati CoT con codice aggiuntivo, che esegue estese simulazioni MCTS per generare percorsi di ragionamento verificati passo dopo passo utilizzati per addestrare il SLM di politica; (2) un nuovo metodo di addestramento del modello di ricompensa di processo che evita annotazioni di punteggio a livello di passo naive, producendo un modello di preferenza di processo (PPM) più efficace; (3) una ricetta di auto-evoluzione in cui il SLM di politica e il PPM vengono costruiti da zero ed evoluti iterativamente per migliorare le capacità di ragionamento. Attraverso 4 cicli di auto-evoluzione con milioni di soluzioni sintetizzate per 747k problemi matematici, rStar-Math potenzia il ragionamento matematico degli SLM a livelli di ultima generazione. Nel benchmark MATH, migliora Qwen2.5-Math-7B dal 58,8% al 90,0% e Phi3-mini-3.8B dal 41,4% all'86,4%, superando o1-preview di +4,5% e +0,9%. Nella Olimpiade Matematica USA (AIME), rStar-Math risolve in media il 53,3% (8/15) dei problemi, posizionandosi tra i primi 20% degli studenti di matematica delle scuole superiori più brillanti. Il codice e i dati saranno disponibili su https://github.com/microsoft/rStar.

English

We present rStar-Math to demonstrate that small language models (SLMs) can rival or even surpass the math reasoning capability of OpenAI o1, without distillation from superior models. rStar-Math achieves this by exercising "deep thinking" through Monte Carlo Tree Search (MCTS), where a math policy SLM performs test-time search guided by an SLM-based process reward model. rStar-Math introduces three innovations to tackle the challenges in training the two SLMs: (1) a novel code-augmented CoT data sythesis method, which performs extensive MCTS rollouts to generate step-by-step verified reasoning trajectories used to train the policy SLM; (2) a novel process reward model training method that avoids na\"ive step-level score annotation, yielding a more effective process preference model (PPM); (3) a self-evolution recipe in which the policy SLM and PPM are built from scratch and iteratively evolved to improve reasoning capabilities. Through 4 rounds of self-evolution with millions of synthesized solutions for 747k math problems, rStar-Math boosts SLMs' math reasoning to state-of-the-art levels. On the MATH benchmark, it improves Qwen2.5-Math-7B from 58.8% to 90.0% and Phi3-mini-3.8B from 41.4% to 86.4%, surpassing o1-preview by +4.5% and +0.9%. On the USA Math Olympiad (AIME), rStar-Math solves an average of 53.3% (8/15) of problems, ranking among the top 20% the brightest high school math students. Code and data will be available at https://github.com/microsoft/rStar.

rStar-Math: Piccoli LLM possono padroneggiare il ragionamento matematico con un pensiero profondo autoevoluto

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Abstract

Support