Addestramento Efficiente del Modello di Ricompensa del Processo tramite Apprendimento Attivo
Efficient Process Reward Model Training via Active Learning
April 14, 2025
Autori: Keyu Duan, Zichen Liu, Xin Mao, Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu Dou
cs.AI
Abstract
I Modelli di Ricompensa per Processi (PRM) forniscono una supervisione a livello di passaggio ai grandi modelli linguistici (LLM), ma la scalabilità dell'annotazione dei dati di formazione rimane una sfida sia per gli esseri umani che per i LLM. Per affrontare questa limitazione, proponiamo un approccio di apprendimento attivo, ActPRM, che seleziona proattivamente i campioni più incerti per la formazione, riducendo sostanzialmente i costi di etichettatura. Durante l'addestramento, utilizziamo il PRM per stimare l'incertezza dopo il passaggio in avanti, conservando solo i dati altamente incerti. Un modello di ragionamento capace ma costoso etichetta quindi questi dati. Successivamente, calcoliamo la perdita rispetto alle etichette e aggiorniamo i pesi del PRM. Confrontiamo ActPRM con il fine-tuning standard, in un contesto di apprendimento attivo basato su pool, dimostrando che ActPRM riduce del 50% l'annotazione, ma raggiunge prestazioni comparabili o addirittura migliori. Oltre all'efficienza nell'annotazione, avanziamo ulteriormente il PRM addestrato attivamente filtrando oltre 1 milione di traiettorie di ragionamento matematico con ActPRM, conservando il 60% dei dati. Un successivo addestramento su questo dataset selezionato produce un nuovo PRM all'avanguardia (SOTA) su ProcessBench (75.0%) e PRMBench (65.5%) rispetto a modelli delle stesse dimensioni.
English
Process Reward Models (PRMs) provide step-level supervision to large language
models (LLMs), but scaling up training data annotation remains challenging for
both humans and LLMs. To address this limitation, we propose an active learning
approach, ActPRM, which proactively selects the most uncertain samples for
training, substantially reducing labeling costs. During training, we use the
PRM to estimate uncertainty after the forward pass, retaining only highly
uncertain data. A capable yet costly reasoning model then labels this data.
Then we compute the loss with respect to the labels and update the PRM's
weights. We compare ActPRM vs. vanilla fine-tuning, on a pool-based active
learning setting, demonstrating that ActPRM reduces 50% annotation, but
achieving the comparable or even better performance. Beyond annotation
efficiency, we further advance the actively trained PRM by filtering over 1M+
math reasoning trajectories with ActPRM, retaining 60% of the data. A
subsequent training on this selected dataset yields a new state-of-the-art
(SOTA) PRM on ProcessBench (75.0%) and PRMBench (65.5%) compared with same
sized models.Summary
AI-Generated Summary