ChatPaper.aiChatPaper

프로세스 레이블 없이 프로세스 보상 무료화

Free Process Rewards without Process Labels

December 2, 2024
저자: Lifan Yuan, Wendi Li, Huayu Chen, Ganqu Cui, Ning Ding, Kaiyan Zhang, Bowen Zhou, Zhiyuan Liu, Hao Peng
cs.AI

초록

상응하는 결과 보상 모델(ORMs)과는 달리 전체 응답을 평가하는 대신, 과정 보상 모델(PRMs)은 추론 경로를 단계별로 점수를 매겨 보다 밀도 높고 세밀한 보상을 제공합니다. 그러나 PRM을 훈련하기 위해서는 중간 단계마다 주석이 달린 레이블이 필요하여 수동 및 자동 데이터 수집에 상당한 어려움을 제시합니다. 본 논문은 이러한 도전 과제에 대응하기 위해 목적을 두고 있습니다. 이론적으로와 경험적으로, 저희는 보다 저렴한 응답 수준 레이블로 ORM을 간단히 훈련함으로써 추가 비용 없이 암시적 PRM을 얻을 수 있다는 것을 보여줍니다. 유일한 가정은 결과 보상을 정책 및 참조 모델의 로그 우도 비율로 매개변수화하는 것이며, 이는 특정 손실 목표의 선택과 관계없이 최적화할 수 있습니다. 실험에서는 다양한 목표로 암시적 PRM을 구체화하고 MATH에서의 성능을 평가합니다. 저희는 암시적 PRM이 강력한 MCTS 기반 기준 모델인 Math-Shepherd보다 훈련 데이터의 1/38 미만을 사용하여 우수한 성과를 보인다는 것을 보여줍니다. 성능은 다수결 투표로 더 개선될 수 있습니다. 또한 지침 및 응답의 확장이 암시적 PRM에 이점을 제공하며, 후자가 더 큰 이득을 가져옵니다. 특히, CE(교차 엔트로피) 손실을 사용하여 구체화된 암시적 PRM은 데이터 효율적이며 지시사항 당 단 하나의 응답으로 훈련되었을 때에도 생성 모델을 계속 개선할 수 있음을 보여줍니다. 지시사항은 하류 작업과 관련이 있어야 하며 응답의 다양성은 이익을 가져오지 않습니다. 놀랍게도, 추가 Math-Shepherd 단계 레이블로 훈련하는 것은 오직 결과 데이터만 사용하여 훈련된 암시적 PRM에 추가적인 개선을 가져오지 않습니다. 우리의 연구가 PRM 훈련 접근 방식을 재고하도록 독려하고 PRM 훈련을 보다 접근 가능하게 하는 데 기여할 것으로 기대합니다.
English
Different from its counterpart outcome reward models (ORMs), which evaluate the entire responses, a process reward model (PRM) scores a reasoning trajectory step by step, providing denser and more fine grained rewards. However, training a PRM requires labels annotated at every intermediate step, presenting significant challenges for both manual and automatic data collection. This paper aims to address this challenge. Both theoretically and empirically, we show that an implicit PRM can be obtained at no additional cost, by simply training an ORM on the cheaper response-level labels. The only assumption is to parameterize the outcome reward as the log-likelihood ratios of the policy and reference models, which can be optimized regardless of the specific choice of loss objectives. In experiments, we instantiate our implicit PRMs with various objectives and evaluate their performance on MATH. We show that our implicit PRM outperforms a strong MCTS-based baseline \'a la Math-Shepherd using less than 1/38 of the training data. Its performance can be further improved with majority voting. We further find that scaling up instructions and responses benefits our implicit PRM, and the latter brings a larger gain. Particularly, we find that our implicit PRM, when instantiated with the cross-entropy (CE) loss, is more data-efficient and can keep improving generation models even when trained with only one response per instruction, the setup that suffers from extreme data scarcity and imbalance. Further, instructions should be relevant to downstream tasks while the diversity of responses does not bring gains. Surprisingly, training on extra Math-Shepherd step labels brings no further improvements to our implicit PRM trained on only outcome data. We hope that our work will encourage a rethinking of PRM training approaches and contribute to making training PRMs more accessible.

Summary

AI-Generated Summary

PDF322December 4, 2024