AceMath: Avançando o Raciocínio Matemático de Fronteira com Pós-Treinamento e Modelagem de Recompensa

Resumo

Neste artigo, apresentamos o AceMath, um conjunto de modelos matemáticos de ponta que se destacam na resolução de problemas matemáticos complexos, juntamente com modelos de recompensa altamente eficazes capazes de avaliar soluções geradas e identificar de forma confiável as corretas. Para desenvolver os modelos matemáticos ajustados à instrução, propomos um processo de ajuste fino supervisionado (SFT) que primeiro alcança desempenho competitivo em domínios gerais, seguido por ajustes finos direcionados para o domínio matemático usando um conjunto cuidadosamente selecionado de prompts e respostas geradas sinteticamente. O modelo resultante, AceMath-72B-Instruct, supera significativamente o Qwen2.5-Math-72B-Instruct, o GPT-4o e o Claude-3.5 Sonnet. Para desenvolver o modelo de recompensa especializado em matemática, primeiro construímos o AceMath-RewardBench, um benchmark abrangente e robusto para avaliar modelos de recompensa matemática em diversos problemas e níveis de dificuldade. Em seguida, apresentamos uma abordagem sistemática para construir nossos modelos de recompensa matemática. O modelo resultante, AceMath-72B-RM, supera consistentemente os modelos de recompensa de última geração. Além disso, ao combinar o AceMath-72B-Instruct com o AceMath-72B-RM, alcançamos a maior pontuação média de rm@8 em benchmarks de raciocínio matemático. Vamos disponibilizar os pesos do modelo, os dados de treinamento e os benchmarks de avaliação em: https://research.nvidia.com/labs/adlr/acemath

English

In this paper, we introduce AceMath, a suite of frontier math models that excel in solving complex math problems, along with highly effective reward models capable of evaluating generated solutions and reliably identifying the correct ones. To develop the instruction-tuned math models, we propose a supervised fine-tuning (SFT) process that first achieves competitive performance across general domains, followed by targeted fine-tuning for the math domain using a carefully curated set of prompts and synthetically generated responses. The resulting model, AceMath-72B-Instruct greatly outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop math-specialized reward model, we first construct AceMath-RewardBench, a comprehensive and robust benchmark for evaluating math reward models across diverse problems and difficulty levels. After that, we present a systematic approach to build our math reward models. The resulting model, AceMath-72B-RM, consistently outperforms state-of-the-art reward models. Furthermore, when combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest average rm@8 score across the math reasoning benchmarks. We will release model weights, training data, and evaluation benchmarks at: https://research.nvidia.com/labs/adlr/acemath

AceMath: Avançando o Raciocínio Matemático de Fronteira com Pós-Treinamento e Modelagem de Recompensa

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

Resumo

Support