rStar-Math: Pequenos LLMs Podem Dominar o Raciocínio Matemático com Pensamento Profundo Autoevoluído
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
January 8, 2025
Autores: Xinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang
cs.AI
Resumo
Apresentamos o rStar-Math para demonstrar que modelos de linguagem pequenos (SLMs) podem rivalizar ou até mesmo superar a capacidade de raciocínio matemático do OpenAI o1, sem destilação de modelos superiores. O rStar-Math alcança isso exercitando o "pensamento profundo" por meio da Busca Monte Carlo em Árvore (MCTS), onde um modelo de política matemática SLM realiza busca em tempo de teste guiada por um modelo de recompensa de processo baseado em SLM. O rStar-Math introduz três inovações para lidar com os desafios no treinamento dos dois SLMs: (1) um novo método de síntese de dados CoT aumentado por código, que realiza extensas simulações MCTS para gerar trajetórias de raciocínio verificadas passo a passo usadas para treinar o SLM de política; (2) um novo método de treinamento de modelo de recompensa de processo que evita a anotação ingênua de pontuação em nível de passo, resultando em um modelo de preferência de processo (PPM) mais eficaz; (3) uma receita de autoevolução na qual o SLM de política e o PPM são construídos do zero e evoluem iterativamente para melhorar as capacidades de raciocínio. Através de 4 rodadas de autoevolução com milhões de soluções sintetizadas para 747 mil problemas matemáticos, o rStar-Math impulsiona o raciocínio matemático dos SLMs para níveis de ponta. No benchmark MATH, ele melhora o Qwen2.5-Math-7B de 58,8% para 90,0% e o Phi3-mini-3.8B de 41,4% para 86,4%, superando o o1-preview em +4,5% e +0,9%. Na Olimpíada de Matemática dos EUA (AIME), o rStar-Math resolve em média 53,3% (8/15) dos problemas, classificando-se entre os 20% melhores dos alunos mais brilhantes do ensino médio em matemática. O código e os dados estarão disponíveis em https://github.com/microsoft/rStar.
English
We present rStar-Math to demonstrate that small language models (SLMs) can
rival or even surpass the math reasoning capability of OpenAI o1, without
distillation from superior models. rStar-Math achieves this by exercising "deep
thinking" through Monte Carlo Tree Search (MCTS), where a math policy SLM
performs test-time search guided by an SLM-based process reward model.
rStar-Math introduces three innovations to tackle the challenges in training
the two SLMs: (1) a novel code-augmented CoT data sythesis method, which
performs extensive MCTS rollouts to generate step-by-step verified reasoning
trajectories used to train the policy SLM; (2) a novel process reward model
training method that avoids na\"ive step-level score annotation, yielding a
more effective process preference model (PPM); (3) a self-evolution recipe in
which the policy SLM and PPM are built from scratch and iteratively evolved to
improve reasoning capabilities. Through 4 rounds of self-evolution with
millions of synthesized solutions for 747k math problems, rStar-Math boosts
SLMs' math reasoning to state-of-the-art levels. On the MATH benchmark, it
improves Qwen2.5-Math-7B from 58.8% to 90.0% and Phi3-mini-3.8B from 41.4% to
86.4%, surpassing o1-preview by +4.5% and +0.9%. On the USA Math Olympiad
(AIME), rStar-Math solves an average of 53.3% (8/15) of problems, ranking among
the top 20% the brightest high school math students. Code and data will be
available at https://github.com/microsoft/rStar.Summary
AI-Generated Summary