AceMath: Avançando o Raciocínio Matemático de Fronteira com Pós-Treinamento e Modelagem de Recompensa
AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
December 19, 2024
Autores: Zihan Liu, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
Resumo
Neste artigo, apresentamos o AceMath, um conjunto de modelos matemáticos de ponta que se destacam na resolução de problemas matemáticos complexos, juntamente com modelos de recompensa altamente eficazes capazes de avaliar soluções geradas e identificar de forma confiável as corretas. Para desenvolver os modelos matemáticos ajustados à instrução, propomos um processo de ajuste fino supervisionado (SFT) que primeiro alcança desempenho competitivo em domínios gerais, seguido por ajustes finos direcionados para o domínio matemático usando um conjunto cuidadosamente selecionado de prompts e respostas geradas sinteticamente. O modelo resultante, AceMath-72B-Instruct, supera significativamente o Qwen2.5-Math-72B-Instruct, o GPT-4o e o Claude-3.5 Sonnet. Para desenvolver o modelo de recompensa especializado em matemática, primeiro construímos o AceMath-RewardBench, um benchmark abrangente e robusto para avaliar modelos de recompensa matemática em diversos problemas e níveis de dificuldade. Em seguida, apresentamos uma abordagem sistemática para construir nossos modelos de recompensa matemática. O modelo resultante, AceMath-72B-RM, supera consistentemente os modelos de recompensa de última geração. Além disso, ao combinar o AceMath-72B-Instruct com o AceMath-72B-RM, alcançamos a maior pontuação média de rm@8 em benchmarks de raciocínio matemático. Vamos disponibilizar os pesos do modelo, os dados de treinamento e os benchmarks de avaliação em: https://research.nvidia.com/labs/adlr/acemath
English
In this paper, we introduce AceMath, a suite of frontier math models that
excel in solving complex math problems, along with highly effective reward
models capable of evaluating generated solutions and reliably identifying the
correct ones. To develop the instruction-tuned math models, we propose a
supervised fine-tuning (SFT) process that first achieves competitive
performance across general domains, followed by targeted fine-tuning for the
math domain using a carefully curated set of prompts and synthetically
generated responses. The resulting model, AceMath-72B-Instruct greatly
outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop
math-specialized reward model, we first construct AceMath-RewardBench, a
comprehensive and robust benchmark for evaluating math reward models across
diverse problems and difficulty levels. After that, we present a systematic
approach to build our math reward models. The resulting model, AceMath-72B-RM,
consistently outperforms state-of-the-art reward models. Furthermore, when
combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest
average rm@8 score across the math reasoning benchmarks. We will release model
weights, training data, and evaluation benchmarks at:
https://research.nvidia.com/labs/adlr/acemathSummary
AI-Generated Summary