Modèles de Récompense de Processus Qui Réfléchissent
Process Reward Models That Think
April 23, 2025
Auteurs: Muhammad Khalifa, Rishabh Agarwal, Lajanugen Logeswaran, Jaekyeom Kim, Hao Peng, Moontae Lee, Honglak Lee, Lu Wang
cs.AI
Résumé
Les vérificateurs étape par étape -- également connus sous le nom de modèles de récompense de processus (PRMs) -- constituent un élément clé pour le passage à l'échelle lors des tests. Les PRMs nécessitent une supervision au niveau des étapes, ce qui les rend coûteux à entraîner. Ce travail vise à construire des PRMs efficaces en termes de données sous forme de modèles de récompense verbaux étape par étape qui vérifient chaque étape de la solution en générant une chaîne de pensée (CoT) de vérification. Nous proposons ThinkPRM, un vérificateur à longue CoT affiné avec un nombre d'étiquettes de processus considérablement inférieur à celui requis par les PRMs discriminatifs. Notre approche tire parti des capacités de raisonnement inhérentes aux modèles à longue CoT, et surpasse les méthodes LLM-as-a-Judge et les vérificateurs discriminatifs -- en utilisant seulement 1% des étiquettes de processus de PRM800K -- sur plusieurs benchmarks exigeants. Plus précisément, ThinkPRM dépasse les baselines sur ProcessBench, MATH-500 et AIME '24 dans le cadre d'une sélection best-of-N et d'une recherche guidée par la récompense. Dans une évaluation hors domaine sur un sous-ensemble de GPQA-Diamond et LiveCodeBench, notre PRM surpasse les vérificateurs discriminatifs entraînés sur l'intégralité de PRM800K de 8% et 4,5%, respectivement. Enfin, avec le même budget de tokens, ThinkPRM optimise plus efficacement le calcul de vérification par rapport à LLM-as-a-Judge, le surpassant de 7,2% sur un sous-ensemble de ProcessBench. Notre travail met en valeur l'intérêt des PRMs génératifs à longue CoT, capables de passer à l'échelle le calcul de vérification lors des tests tout en nécessitant une supervision minimale pour l'entraînement. Notre code, données et modèles seront publiés sur https://github.com/mukhal/thinkprm.
English
Step-by-step verifiers -- also known as process reward models (PRMs) -- are a
key ingredient for test-time scaling. PRMs require step-level supervision,
making them expensive to train. This work aims to build data-efficient PRMs as
verbalized step-wise reward models that verify every step in the solution by
generating a verification chain-of-thought (CoT). We propose ThinkPRM, a long
CoT verifier fine-tuned on orders of magnitude fewer process labels than those
required by discriminative PRMs. Our approach capitalizes on the inherent
reasoning abilities of long CoT models, and outperforms LLM-as-a-Judge and
discriminative verifiers -- using only 1% of the process labels in PRM800K --
across several challenging benchmarks. Specifically, ThinkPRM beats the
baselines on ProcessBench, MATH-500, and AIME '24 under best-of-N selection and
reward-guided search. In an out-of-domain evaluation on a subset of
GPQA-Diamond and LiveCodeBench, our PRM surpasses discriminative verifiers
trained on the full PRM800K by 8% and 4.5%, respectively. Lastly, under the
same token budget, ThinkPRM scales up verification compute more effectively
compared to LLM-as-a-Judge, outperforming it by 7.2% on a subset of
ProcessBench. Our work highlights the value of generative, long CoT PRMs that
can scale test-time compute for verification while requiring minimal
supervision for training. Our code, data, and models will be released at
https://github.com/mukhal/thinkprm.Summary
AI-Generated Summary