Ricompense di Processo Libere senza Etichette di Processo
Free Process Rewards without Process Labels
December 2, 2024
Autori: Lifan Yuan, Wendi Li, Huayu Chen, Ganqu Cui, Ning Ding, Kaiyan Zhang, Bowen Zhou, Zhiyuan Liu, Hao Peng
cs.AI
Abstract
Diversamente dai modelli di ricompensa di risultato (ORMs), che valutano le risposte complete, un modello di ricompensa di processo (PRM) valuta una traiettoria di ragionamento passo dopo passo, fornendo ricompense più dense e dettagliate. Tuttavia, addestrare un PRM richiede etichette annotate ad ogni passaggio intermedio, presentando significativi sfide sia per la raccolta manuale che automatica dei dati. Questo articolo si propone di affrontare questa sfida. Sia teoricamente che empiricamente, dimostriamo che un PRM implicito può essere ottenuto senza costi aggiuntivi, addestrando semplicemente un ORM sulle etichette di livello di risposta più economiche. L'unica ipotesi è di parametrizzare la ricompensa di risultato come i rapporti di log-verosimiglianza dei modelli di politica e di riferimento, che possono essere ottimizzati indipendentemente dalla scelta specifica degli obiettivi di perdita. Negli esperimenti, istanziamo i nostri PRM impliciti con vari obiettivi e valutiamo le loro prestazioni su MATH. Mostriamo che il nostro PRM implicito supera un forte baselin di tipo MCTS alla Math-Shepherd utilizzando meno di 1/38 dei dati di addestramento. Le sue prestazioni possono essere ulteriormente migliorate con il voto a maggioranza. Troviamo inoltre che aumentare le istruzioni e le risposte beneficia il nostro PRM implicito, e quest'ultimo porta a un guadagno maggiore. In particolare, scopriamo che il nostro PRM implicito, quando istanziato con la perdita di entropia incrociata (CE), è più efficiente nei dati e può continuare a migliorare i modelli di generazione anche quando addestrato con una sola risposta per istruzione, la configurazione che soffre di estrema scarsità e squilibrio dei dati. Inoltre, le istruzioni dovrebbero essere rilevanti per i compiti successivi mentre la diversità delle risposte non porta benefici. Sorprendentemente, addestrare su etichette aggiuntive di passaggi Math-Shepherd non porta ulteriori miglioramenti al nostro PRM implicito addestrato solo sui dati di risultato. Speriamo che il nostro lavoro incoraggi una rivalutazione degli approcci di addestramento dei PRM e contribuisca a rendere i PRM più accessibili.
English
Different from its counterpart outcome reward models (ORMs), which evaluate
the entire responses, a process reward model (PRM) scores a reasoning
trajectory step by step, providing denser and more fine grained rewards.
However, training a PRM requires labels annotated at every intermediate step,
presenting significant challenges for both manual and automatic data
collection. This paper aims to address this challenge. Both theoretically and
empirically, we show that an implicit PRM can be obtained at no
additional cost, by simply training an ORM on the cheaper response-level
labels. The only assumption is to parameterize the outcome reward as the
log-likelihood ratios of the policy and reference models, which can be
optimized regardless of the specific choice of loss objectives. In experiments,
we instantiate our implicit PRMs with various objectives and evaluate their
performance on MATH. We show that our implicit PRM outperforms a strong
MCTS-based baseline \'a la Math-Shepherd using less than 1/38 of the
training data. Its performance can be further improved with majority voting. We
further find that scaling up instructions and responses benefits our implicit
PRM, and the latter brings a larger gain. Particularly, we find that our
implicit PRM, when instantiated with the cross-entropy (CE) loss, is more
data-efficient and can keep improving generation models even when trained with
only one response per instruction, the setup that suffers from extreme data
scarcity and imbalance. Further, instructions should be relevant to downstream
tasks while the diversity of responses does not bring gains. Surprisingly,
training on extra Math-Shepherd step labels brings no further improvements to
our implicit PRM trained on only outcome data. We hope that our work will
encourage a rethinking of PRM training approaches and contribute to making
training PRMs more accessible.Summary
AI-Generated Summary