Prozessbelohnungsmodelle, die denken

Zusammenfassung

Schritt-für-Schritt-Verifizierer – auch bekannt als Prozess-Belohnungsmodelle (PRMs) – sind ein Schlüsselelement für die Skalierung zur Testzeit. PRMs benötigen eine schrittweise Überwachung, was sie teuer in der Ausbildung macht. Diese Arbeit zielt darauf ab, dateneffiziente PRMs als verbalisierte schrittweise Belohnungsmodelle zu entwickeln, die jeden Schritt in der Lösung durch die Erzeugung einer Verifikations-Kette von Gedanken (CoT) überprüfen. Wir schlagen ThinkPRM vor, einen langen CoT-Verifizierer, der mit einer Größenordnung weniger Prozesslabels feinabgestimmt wird als diejenigen, die von diskriminativen PRMs benötigt werden. Unser Ansatz nutzt die inhärenten Fähigkeiten zur logischen Schlussfolgerung von langen CoT-Modellen und übertrifft LLM-as-a-Judge und diskriminative Verifizierer – unter Verwendung von nur 1 % der Prozesslabels in PRM800K – in mehreren anspruchsvollen Benchmarks. Insbesondere schlägt ThinkPRM die Baselines in ProcessBench, MATH-500 und AIME '24 unter Best-of-N-Auswahl und belohnungsgesteuerter Suche. In einer Out-of-Domain-Evaluierung auf einer Teilmenge von GPQA-Diamond und LiveCodeBench übertrifft unser PRM diskriminative Verifizierer, die auf dem vollständigen PRM800K trainiert wurden, um 8 % bzw. 4,5 %. Schließlich skaliert ThinkPRM unter demselben Token-Budget die Verifikationsrechenleistung effektiver im Vergleich zu LLM-as-a-Judge und übertrifft es um 7,2 % auf einer Teilmenge von ProcessBench. Unsere Arbeit unterstreicht den Wert von generativen, langen CoT-PRMs, die die Rechenleistung zur Testzeit für die Verifikation skalieren können, während sie nur minimale Überwachung für das Training benötigen. Unser Code, Daten und Modelle werden unter https://github.com/mukhal/thinkprm veröffentlicht.

English

Step-by-step verifiers -- also known as process reward models (PRMs) -- are a key ingredient for test-time scaling. PRMs require step-level supervision, making them expensive to train. This work aims to build data-efficient PRMs as verbalized step-wise reward models that verify every step in the solution by generating a verification chain-of-thought (CoT). We propose ThinkPRM, a long CoT verifier fine-tuned on orders of magnitude fewer process labels than those required by discriminative PRMs. Our approach capitalizes on the inherent reasoning abilities of long CoT models, and outperforms LLM-as-a-Judge and discriminative verifiers -- using only 1% of the process labels in PRM800K -- across several challenging benchmarks. Specifically, ThinkPRM beats the baselines on ProcessBench, MATH-500, and AIME '24 under best-of-N selection and reward-guided search. In an out-of-domain evaluation on a subset of GPQA-Diamond and LiveCodeBench, our PRM surpasses discriminative verifiers trained on the full PRM800K by 8% and 4.5%, respectively. Lastly, under the same token budget, ThinkPRM scales up verification compute more effectively compared to LLM-as-a-Judge, outperforming it by 7.2% on a subset of ProcessBench. Our work highlights the value of generative, long CoT PRMs that can scale test-time compute for verification while requiring minimal supervision for training. Our code, data, and models will be released at https://github.com/mukhal/thinkprm.

Prozessbelohnungsmodelle, die denken

Process Reward Models That Think

Zusammenfassung

Summary

Support

Support