As Lições do Desenvolvimento de Modelos de Recompensa de Processo na Raciocínio Matemático

The Lessons of Developing Process Reward Models in Mathematical Reasoning

January 13, 2025
Autores: Zhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI

Resumo

Os Modelos de Recompensa de Processo (PRMs) surgem como uma abordagem promissora para a supervisão de processos na raciocínio matemático de Modelos de Linguagem Grandes (LLMs), que têm como objetivo identificar e mitigar erros intermediários nos processos de raciocínio. No entanto, o desenvolvimento de PRMs eficazes enfrenta desafios significativos, especialmente em metodologias de anotação de dados e avaliação. Neste artigo, por meio de experimentos extensivos, demonstramos que a síntese de dados comumente utilizada baseada em estimativa Monte Carlo (MC) para PRMs geralmente resulta em desempenho e generalização inferiores em comparação com os métodos LLM-como-juiz e de anotação humana. A estimativa MC depende de modelos de conclusão para avaliar a correção do passo atual, levando a uma verificação imprecisa do passo. Além disso, identificamos possíveis viéses nas estratégias de avaliação convencionais Melhor-de-N (BoN) para PRMs: (1) Os modelos de política não confiáveis geram respostas com respostas corretas, mas processos falhos, levando a um desalinhamento entre os critérios de avaliação do BoN e os objetivos dos PRMs de verificação de processo. (2) A tolerância dos PRMs a tais respostas leva a pontuações infladas do BoN. (3) Os PRMs existentes têm uma proporção significativa de pontuações mínimas concentradas nos passos de resposta finais, revelando a mudança de uma avaliação baseada em processo para uma baseada em resultado nos PRMs Otimizados BoN. Para enfrentar esses desafios, desenvolvemos um mecanismo de filtragem de consenso que integra efetivamente a estimativa MC com LLM-como-juiz e defende um framework de avaliação mais abrangente que combina métricas de nível de resposta e de nível de passo. Com base nos mecanismos, melhoramos significativamente tanto o desempenho do modelo quanto a eficiência de dados na avaliação BoN e na tarefa de identificação de erros por etapas. Por fim, lançamos um novo PRM de ponta que supera as alternativas de código aberto existentes e fornece diretrizes práticas para futuras pesquisas na construção de modelos de supervisão de processo.
English
Process Reward Models (PRMs) emerge as a promising approach for process supervision in mathematical reasoning of Large Language Models (LLMs), which aim to identify and mitigate intermediate errors in the reasoning processes. However, the development of effective PRMs faces significant challenges, particularly in data annotation and evaluation methodologies. In this paper, through extensive experiments, we demonstrate that commonly used Monte Carlo (MC) estimation-based data synthesis for PRMs typically yields inferior performance and generalization compared to LLM-as-a-judge and human annotation methods. MC estimation relies on completion models to evaluate current-step correctness, leading to inaccurate step verification. Furthermore, we identify potential biases in conventional Best-of-N (BoN) evaluation strategies for PRMs: (1) The unreliable policy models generate responses with correct answers but flawed processes, leading to a misalignment between the evaluation criteria of BoN and the PRM objectives of process verification. (2) The tolerance of PRMs of such responses leads to inflated BoN scores. (3) Existing PRMs have a significant proportion of minimum scores concentrated on the final answer steps, revealing the shift from process to outcome-based assessment in BoN Optimized PRMs. To address these challenges, we develop a consensus filtering mechanism that effectively integrates MC estimation with LLM-as-a-judge and advocates a more comprehensive evaluation framework that combines response-level and step-level metrics. Based on the mechanisms, we significantly improve both model performance and data efficiency in the BoN evaluation and the step-wise error identification task. Finally, we release a new state-of-the-art PRM that outperforms existing open-source alternatives and provides practical guidelines for future research in building process supervision models.

Summary

AI-Generated Summary

PDF778January 14, 2025