GenPRM: Scalabilità del Calcolo in Fase di Test per i Modelli di Ricompensa dei Processi tramite Ragionamento Generativo

Abstract

I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLMs) hanno dimostrato che è promettente utilizzare Modelli di Ricompensa di Processo (PRMs) come verificatori per migliorare le prestazioni degli LLMs. Tuttavia, gli attuali PRMs affrontano tre sfide principali: (1) capacità limitate di supervisione e generalizzazione del processo, (2) dipendenza dalla previsione di valori scalari senza sfruttare le capacità generative degli LLMs, e (3) incapacità di scalare il calcolo al momento del test dei PRMs. In questo lavoro, introduciamo GenPRM, un modello generativo di ricompensa di processo che esegue un ragionamento esplicito a Catena di Pensiero (CoT) con verifica del codice prima di fornire un giudizio per ogni passo del ragionamento. Per ottenere etichette di supervisione del processo e dati di razionale di alta qualità, proponiamo la Stima del Progresso Relativo (RPE) e un framework di sintesi del razionale che incorpora la verifica del codice. I risultati sperimentali su ProcessBench e diverse attività di ragionamento matematico mostrano che GenPRM supera significativamente i precedenti PRMs con solo 23K dati di addestramento dal dataset MATH. Attraverso la scalatura al momento del test, un GenPRM da 1.5B supera GPT-4o, e un GenPRM da 7B supera Qwen2.5-Math-PRM-72B su ProcessBench. Inoltre, GenPRM dimostra forti capacità di servire come modello critico per il perfezionamento del modello di policy. Questo lavoro stabilisce un nuovo paradigma per la supervisione del processo che colma il divario tra PRMs e modelli critici negli LLMs. Il nostro codice, modello e dati saranno disponibili su https://ryanliu112.github.io/GenPRM.

English

Recent advancements in Large Language Models (LLMs) have shown that it is promising to utilize Process Reward Models (PRMs) as verifiers to enhance the performance of LLMs. However, current PRMs face three key challenges: (1) limited process supervision and generalization capabilities, (2) dependence on scalar value prediction without leveraging the generative abilities of LLMs, and (3) inability to scale the test-time compute of PRMs. In this work, we introduce GenPRM, a generative process reward model that performs explicit Chain-of-Thought (CoT) reasoning with code verification before providing judgment for each reasoning step. To obtain high-quality process supervision labels and rationale data, we propose Relative Progress Estimation (RPE) and a rationale synthesis framework that incorporates code verification. Experimental results on ProcessBench and several mathematical reasoning tasks show that GenPRM significantly outperforms prior PRMs with only 23K training data from MATH dataset. Through test-time scaling, a 1.5B GenPRM outperforms GPT-4o, and a 7B GenPRM surpasses Qwen2.5-Math-PRM-72B on ProcessBench. Additionally, GenPRM demonstrates strong abilities to serve as a critic model for policy model refinement. This work establishes a new paradigm for process supervision that bridges the gap between PRMs and critic models in LLMs. Our code, model, and data will be available in https://ryanliu112.github.io/GenPRM.

GenPRM: Scalabilità del Calcolo in Fase di Test per i Modelli di Ricompensa dei Processi tramite Ragionamento Generativo

GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

Abstract

Summary

Support

Support