Die Lehren aus der Entwicklung von Prozessbelohnungsmodellen in mathematischem Denken

The Lessons of Developing Process Reward Models in Mathematical Reasoning

January 13, 2025
Autoren: Zhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI

Zusammenfassung

Prozessbelohnungsmodelle (PRMs) erweisen sich als vielversprechender Ansatz für die Prozessaufsicht bei mathematischem Denken von Großen Sprachmodellen (LLMs), die darauf abzielen, Zwischenfehler in den Denkprozessen zu identifizieren und zu mildern. Die Entwicklung effektiver PRMs steht jedoch vor erheblichen Herausforderungen, insbesondere bei der Datenannotation und Evaluierungsmethoden. In diesem Paper zeigen wir durch umfangreiche Experimente, dass die häufig verwendete datenbasierte Synthese für PRMs auf Monte-Carlo-Schätzungen (MC) in der Regel eine schlechtere Leistung und Generalisierung im Vergleich zu LLM-als-Richter und menschlichen Annotationsmethoden liefert. MC-Schätzungen stützen sich auf Abschlussmodelle zur Bewertung der Korrektheit des aktuellen Schritts, was zu einer ungenauen Schrittverifizierung führt. Darüber hinaus identifizieren wir potenzielle Verzerrungen in herkömmlichen Best-of-N (BoN) Evaluierungsstrategien für PRMs: (1) Die unzuverlässigen Richtlinienmodelle generieren Antworten mit korrekten Antworten, aber fehlerhaften Prozessen, was zu einer Diskrepanz zwischen den Evaluierungskriterien von BoN und den PRM-Zielen der Prozessverifizierung führt. (2) Die Toleranz von PRMs gegenüber solchen Antworten führt zu aufgeblähten BoN-Werten. (3) Bestehende PRMs weisen einen signifikanten Anteil an Mindestwerten auf, die sich auf die abschließenden Antwortschritte konzentrieren, was den Übergang von prozess- zu ergebnisorientierter Bewertung in BoN-optimierten PRMs zeigt. Um diesen Herausforderungen zu begegnen, entwickeln wir einen Konsensfiltermechanismus, der MC-Schätzungen effektiv mit LLM-als-Richter integriert und ein umfassenderes Evaluierungsrahmenwerk befürwortet, das Antwort- und Schrittmessungen kombiniert. Basierend auf diesen Mechanismen verbessern wir signifikant sowohl die Modellleistung als auch die Dateneffizienz bei der BoN-Evaluierung und der schrittweisen Fehleridentifikationsaufgabe. Abschließend veröffentlichen wir ein neues erstklassiges PRM, das bestehende Open-Source-Alternativen übertrifft und praktische Leitlinien für zukünftige Forschung im Aufbau von Prozessaufsichtsmodellen bietet.
English
Process Reward Models (PRMs) emerge as a promising approach for process supervision in mathematical reasoning of Large Language Models (LLMs), which aim to identify and mitigate intermediate errors in the reasoning processes. However, the development of effective PRMs faces significant challenges, particularly in data annotation and evaluation methodologies. In this paper, through extensive experiments, we demonstrate that commonly used Monte Carlo (MC) estimation-based data synthesis for PRMs typically yields inferior performance and generalization compared to LLM-as-a-judge and human annotation methods. MC estimation relies on completion models to evaluate current-step correctness, leading to inaccurate step verification. Furthermore, we identify potential biases in conventional Best-of-N (BoN) evaluation strategies for PRMs: (1) The unreliable policy models generate responses with correct answers but flawed processes, leading to a misalignment between the evaluation criteria of BoN and the PRM objectives of process verification. (2) The tolerance of PRMs of such responses leads to inflated BoN scores. (3) Existing PRMs have a significant proportion of minimum scores concentrated on the final answer steps, revealing the shift from process to outcome-based assessment in BoN Optimized PRMs. To address these challenges, we develop a consensus filtering mechanism that effectively integrates MC estimation with LLM-as-a-judge and advocates a more comprehensive evaluation framework that combines response-level and step-level metrics. Based on the mechanisms, we significantly improve both model performance and data efficiency in the BoN evaluation and the step-wise error identification task. Finally, we release a new state-of-the-art PRM that outperforms existing open-source alternatives and provides practical guidelines for future research in building process supervision models.

Summary

AI-Generated Summary

PDF778January 14, 2025