Lezioni nello Sviluppo dei Modelli di Ricompensa del Processo nella Ragionamento Matematico
The Lessons of Developing Process Reward Models in Mathematical Reasoning
January 13, 2025
Autori: Zhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI
Abstract
I Modelli di Ricompensa del Processo (PRM) emergono come un approccio promettente per la supervisione del processo nella ragionamento matematico dei Grandi Modelli di Linguaggio (LLM), che mirano a identificare e mitigare errori intermedi nei processi di ragionamento. Tuttavia, lo sviluppo di PRM efficaci affronta significativi sfide, in particolare nella data annotation e nelle metodologie di valutazione. In questo articolo, attraverso estesi esperimenti, dimostriamo che la sintesi dei dati comunemente utilizzata basata su stime Monte Carlo (MC) per i PRM generalmente produce prestazioni e generalizzazioni inferiori rispetto ai metodi LLM-come-giudice e all'annotation umana. La stima MC si basa su modelli di completamento per valutare la correttezza del passo corrente, portando a una verifica inaccurata del passo. Inoltre, identifichiamo potenziali bias nelle strategie di valutazione Best-of-N (BoN) convenzionali per i PRM: (1) I modelli di policy non affidabili generano risposte con risposte corrette ma processi difettosi, portando a uno scompasso tra i criteri di valutazione di BoN e gli obiettivi di verifica del processo di PRM. (2) La tolleranza dei PRM per tali risposte porta a punteggi BoN gonfiati. (3) I PRM esistenti hanno una significativa proporzione di punteggi minimi concentrati sui passaggi della risposta finale, rivelando il passaggio dalla valutazione basata sul processo a quella basata sull'esito nei PRM Ottimizzati BoN. Per affrontare queste sfide, sviluppiamo un meccanismo di filtraggio del consenso che integra efficacemente la stima MC con LLM-come-giudice e sosteniamo un quadro di valutazione più completo che combina metriche a livello di risposta e a livello di passo. Basandoci sui meccanismi, miglioriamo significativamente sia le prestazioni del modello che l'efficienza dei dati nella valutazione BoN e nel compito di identificazione degli errori passo dopo passo. Infine, rilasciamo un nuovo PRM all'avanguardia che supera le alternative open-source esistenti e fornisce linee guida pratiche per la ricerca futura nella costruzione di modelli di supervisione del processo.
English
Process Reward Models (PRMs) emerge as a promising approach for process
supervision in mathematical reasoning of Large Language Models (LLMs), which
aim to identify and mitigate intermediate errors in the reasoning processes.
However, the development of effective PRMs faces significant challenges,
particularly in data annotation and evaluation methodologies. In this paper,
through extensive experiments, we demonstrate that commonly used Monte Carlo
(MC) estimation-based data synthesis for PRMs typically yields inferior
performance and generalization compared to LLM-as-a-judge and human annotation
methods. MC estimation relies on completion models to evaluate current-step
correctness, leading to inaccurate step verification. Furthermore, we identify
potential biases in conventional Best-of-N (BoN) evaluation strategies for
PRMs: (1) The unreliable policy models generate responses with correct answers
but flawed processes, leading to a misalignment between the evaluation criteria
of BoN and the PRM objectives of process verification. (2) The tolerance of
PRMs of such responses leads to inflated BoN scores. (3) Existing PRMs have a
significant proportion of minimum scores concentrated on the final answer
steps, revealing the shift from process to outcome-based assessment in BoN
Optimized PRMs. To address these challenges, we develop a consensus filtering
mechanism that effectively integrates MC estimation with LLM-as-a-judge and
advocates a more comprehensive evaluation framework that combines
response-level and step-level metrics. Based on the mechanisms, we
significantly improve both model performance and data efficiency in the BoN
evaluation and the step-wise error identification task. Finally, we release a
new state-of-the-art PRM that outperforms existing open-source alternatives and
provides practical guidelines for future research in building process
supervision models.Summary
AI-Generated Summary