rStar-Math: Pequenos LLMs Podem Dominar o Raciocínio Matemático com Pensamento Profundo Autoevoluído

Resumo

Apresentamos o rStar-Math para demonstrar que modelos de linguagem pequenos (SLMs) podem rivalizar ou até mesmo superar a capacidade de raciocínio matemático do OpenAI o1, sem destilação de modelos superiores. O rStar-Math alcança isso exercitando o "pensamento profundo" por meio da Busca Monte Carlo em Árvore (MCTS), onde um modelo de política matemática SLM realiza busca em tempo de teste guiada por um modelo de recompensa de processo baseado em SLM. O rStar-Math introduz três inovações para lidar com os desafios no treinamento dos dois SLMs: (1) um novo método de síntese de dados CoT aumentado por código, que realiza extensas simulações MCTS para gerar trajetórias de raciocínio verificadas passo a passo usadas para treinar o SLM de política; (2) um novo método de treinamento de modelo de recompensa de processo que evita a anotação ingênua de pontuação em nível de passo, resultando em um modelo de preferência de processo (PPM) mais eficaz; (3) uma receita de autoevolução na qual o SLM de política e o PPM são construídos do zero e evoluem iterativamente para melhorar as capacidades de raciocínio. Através de 4 rodadas de autoevolução com milhões de soluções sintetizadas para 747 mil problemas matemáticos, o rStar-Math impulsiona o raciocínio matemático dos SLMs para níveis de ponta. No benchmark MATH, ele melhora o Qwen2.5-Math-7B de 58,8% para 90,0% e o Phi3-mini-3.8B de 41,4% para 86,4%, superando o o1-preview em +4,5% e +0,9%. Na Olimpíada de Matemática dos EUA (AIME), o rStar-Math resolve em média 53,3% (8/15) dos problemas, classificando-se entre os 20% melhores dos alunos mais brilhantes do ensino médio em matemática. O código e os dados estarão disponíveis em https://github.com/microsoft/rStar.

English

We present rStar-Math to demonstrate that small language models (SLMs) can rival or even surpass the math reasoning capability of OpenAI o1, without distillation from superior models. rStar-Math achieves this by exercising "deep thinking" through Monte Carlo Tree Search (MCTS), where a math policy SLM performs test-time search guided by an SLM-based process reward model. rStar-Math introduces three innovations to tackle the challenges in training the two SLMs: (1) a novel code-augmented CoT data sythesis method, which performs extensive MCTS rollouts to generate step-by-step verified reasoning trajectories used to train the policy SLM; (2) a novel process reward model training method that avoids na\"ive step-level score annotation, yielding a more effective process preference model (PPM); (3) a self-evolution recipe in which the policy SLM and PPM are built from scratch and iteratively evolved to improve reasoning capabilities. Through 4 rounds of self-evolution with millions of synthesized solutions for 747k math problems, rStar-Math boosts SLMs' math reasoning to state-of-the-art levels. On the MATH benchmark, it improves Qwen2.5-Math-7B from 58.8% to 90.0% and Phi3-mini-3.8B from 41.4% to 86.4%, surpassing o1-preview by +4.5% and +0.9%. On the USA Math Olympiad (AIME), rStar-Math solves an average of 53.3% (8/15) of problems, ranking among the top 20% the brightest high school math students. Code and data will be available at https://github.com/microsoft/rStar.

rStar-Math: Pequenos LLMs Podem Dominar o Raciocínio Matemático com Pensamento Profundo Autoevoluído

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Resumo

Summary

Support