Procesbeloningsmodellen die denken
Process Reward Models That Think
April 23, 2025
Auteurs: Muhammad Khalifa, Rishabh Agarwal, Lajanugen Logeswaran, Jaekyeom Kim, Hao Peng, Moontae Lee, Honglak Lee, Lu Wang
cs.AI
Samenvatting
Stapsgewijze verifiers -- ook wel bekend als procesbeloningsmodellen (PRMs) -- zijn een
belangrijk ingrediënt voor schaling tijdens testtijd. PRMs vereisen toezicht op stapniveau,
wat ze duur maakt om te trainen. Dit werk heeft als doel om data-efficiënte PRMs te bouwen als
verbaal gestapelde beloningsmodellen die elke stap in de oplossing verifiëren door
een verificatie-keten-van-gedachten (CoT) te genereren. We stellen ThinkPRM voor, een lange
CoT-verifier die is afgestemd op ordes van grootte minder proceslabels dan die vereist zijn door
discriminatieve PRMs. Onze aanpak maakt gebruik van de inherente redeneervaardigheden van lange CoT-modellen, en overtreft LLM-as-a-Judge en
discriminatieve verifiers -- met slechts 1% van de proceslabels in PRM800K --
over verschillende uitdagende benchmarks. Specifiek verslaat ThinkPRM de
baselines op ProcessBench, MATH-500, en AIME '24 onder best-of-N selectie en
beloningsgeleid zoeken. In een out-of-domain evaluatie op een subset van
GPQA-Diamond en LiveCodeBench, overtreft onze PRM discriminatieve verifiers
getraind op de volledige PRM800K met respectievelijk 8% en 4,5%. Ten slotte, onder hetzelfde
tokenbudget, schaalt ThinkPRM verificatie-rekenkracht effectiever op
vergeleken met LLM-as-a-Judge, en overtreft het met 7,2% op een subset van
ProcessBench. Ons werk benadrukt de waarde van generatieve, lange CoT PRMs die
rekenkracht voor verificatie tijdens testtijd kunnen opschalen terwijl ze minimale
supervisie vereisen voor training. Onze code, data en modellen zullen worden vrijgegeven op
https://github.com/mukhal/thinkprm.
English
Step-by-step verifiers -- also known as process reward models (PRMs) -- are a
key ingredient for test-time scaling. PRMs require step-level supervision,
making them expensive to train. This work aims to build data-efficient PRMs as
verbalized step-wise reward models that verify every step in the solution by
generating a verification chain-of-thought (CoT). We propose ThinkPRM, a long
CoT verifier fine-tuned on orders of magnitude fewer process labels than those
required by discriminative PRMs. Our approach capitalizes on the inherent
reasoning abilities of long CoT models, and outperforms LLM-as-a-Judge and
discriminative verifiers -- using only 1% of the process labels in PRM800K --
across several challenging benchmarks. Specifically, ThinkPRM beats the
baselines on ProcessBench, MATH-500, and AIME '24 under best-of-N selection and
reward-guided search. In an out-of-domain evaluation on a subset of
GPQA-Diamond and LiveCodeBench, our PRM surpasses discriminative verifiers
trained on the full PRM800K by 8% and 4.5%, respectively. Lastly, under the
same token budget, ThinkPRM scales up verification compute more effectively
compared to LLM-as-a-Judge, outperforming it by 7.2% on a subset of
ProcessBench. Our work highlights the value of generative, long CoT PRMs that
can scale test-time compute for verification while requiring minimal
supervision for training. Our code, data, and models will be released at
https://github.com/mukhal/thinkprm.Summary
AI-Generated Summary