AceMath: Avanzamento della Ragionamento Matematico di Frontiera con Post-Training e Modellazione delle Ricompense

Abstract

In questo articolo, presentiamo AceMath, un insieme di modelli matematici all'avanguardia che eccellono nella risoluzione di problemi matematici complessi, insieme a modelli di ricompensa altamente efficaci capaci di valutare le soluzioni generate e identificare in modo affidabile quelle corrette. Per sviluppare i modelli matematici ottimizzati per le istruzioni, proponiamo un processo di sintonizzazione fine supervisionata (SFT) che prima raggiunge prestazioni competitive in domini generali, seguito da una sintonizzazione fine mirata per il dominio matematico utilizzando un insieme attentamente selezionato di prompt e risposte generate sinteticamente. Il modello risultante, AceMath-72B-Instruct, supera nettamente Qwen2.5-Math-72B-Instruct, GPT-4o e Claude-3.5 Sonnet. Per sviluppare un modello di ricompensa specializzato in matematica, costruiamo prima AceMath-RewardBench, un benchmark completo e robusto per valutare i modelli di ricompensa matematica su problemi diversi e livelli di difficoltà. Successivamente, presentiamo un approccio sistematico per costruire i nostri modelli di ricompensa matematica. Il modello risultante, AceMath-72B-RM, supera costantemente i modelli di ricompensa all'avanguardia. Inoltre, combinando AceMath-72B-Instruct con AceMath-72B-RM, otteniamo il punteggio medio rm@8 più alto tra i benchmark di ragionamento matematico. Rilasceremo i pesi del modello, i dati di addestramento e i benchmark di valutazione su: https://research.nvidia.com/labs/adlr/acemath

English

In this paper, we introduce AceMath, a suite of frontier math models that excel in solving complex math problems, along with highly effective reward models capable of evaluating generated solutions and reliably identifying the correct ones. To develop the instruction-tuned math models, we propose a supervised fine-tuning (SFT) process that first achieves competitive performance across general domains, followed by targeted fine-tuning for the math domain using a carefully curated set of prompts and synthetically generated responses. The resulting model, AceMath-72B-Instruct greatly outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop math-specialized reward model, we first construct AceMath-RewardBench, a comprehensive and robust benchmark for evaluating math reward models across diverse problems and difficulty levels. After that, we present a systematic approach to build our math reward models. The resulting model, AceMath-72B-RM, consistently outperforms state-of-the-art reward models. Furthermore, when combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest average rm@8 score across the math reasoning benchmarks. We will release model weights, training data, and evaluation benchmarks at: https://research.nvidia.com/labs/adlr/acemath

AceMath: Avanzamento della Ragionamento Matematico di Frontiera con Post-Training e Modellazione delle Ricompense

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

Abstract

Summary

Support