AceMath: Avanzamento della Ragionamento Matematico di Frontiera con Post-Training e Modellazione delle Ricompense
AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
December 19, 2024
Autori: Zihan Liu, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
Abstract
In questo articolo, presentiamo AceMath, un insieme di modelli matematici all'avanguardia che eccellono nella risoluzione di problemi matematici complessi, insieme a modelli di ricompensa altamente efficaci capaci di valutare le soluzioni generate e identificare in modo affidabile quelle corrette. Per sviluppare i modelli matematici ottimizzati per le istruzioni, proponiamo un processo di sintonizzazione fine supervisionata (SFT) che prima raggiunge prestazioni competitive in domini generali, seguito da una sintonizzazione fine mirata per il dominio matematico utilizzando un insieme attentamente selezionato di prompt e risposte generate sinteticamente. Il modello risultante, AceMath-72B-Instruct, supera nettamente Qwen2.5-Math-72B-Instruct, GPT-4o e Claude-3.5 Sonnet. Per sviluppare un modello di ricompensa specializzato in matematica, costruiamo prima AceMath-RewardBench, un benchmark completo e robusto per valutare i modelli di ricompensa matematica su problemi diversi e livelli di difficoltà. Successivamente, presentiamo un approccio sistematico per costruire i nostri modelli di ricompensa matematica. Il modello risultante, AceMath-72B-RM, supera costantemente i modelli di ricompensa all'avanguardia. Inoltre, combinando AceMath-72B-Instruct con AceMath-72B-RM, otteniamo il punteggio medio rm@8 più alto tra i benchmark di ragionamento matematico. Rilasceremo i pesi del modello, i dati di addestramento e i benchmark di valutazione su: https://research.nvidia.com/labs/adlr/acemath
English
In this paper, we introduce AceMath, a suite of frontier math models that
excel in solving complex math problems, along with highly effective reward
models capable of evaluating generated solutions and reliably identifying the
correct ones. To develop the instruction-tuned math models, we propose a
supervised fine-tuning (SFT) process that first achieves competitive
performance across general domains, followed by targeted fine-tuning for the
math domain using a carefully curated set of prompts and synthetically
generated responses. The resulting model, AceMath-72B-Instruct greatly
outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop
math-specialized reward model, we first construct AceMath-RewardBench, a
comprehensive and robust benchmark for evaluating math reward models across
diverse problems and difficulty levels. After that, we present a systematic
approach to build our math reward models. The resulting model, AceMath-72B-RM,
consistently outperforms state-of-the-art reward models. Furthermore, when
combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest
average rm@8 score across the math reasoning benchmarks. We will release model
weights, training data, and evaluation benchmarks at:
https://research.nvidia.com/labs/adlr/acemathSummary
AI-Generated Summary