ChatPaper.aiChatPaper

암묵적 보상을 통한 강화 과정

Process Reinforcement through Implicit Rewards

February 3, 2025
저자: Ganqu Cui, Lifan Yuan, Zefan Wang, Hanbin Wang, Wendi Li, Bingxiang He, Yuchen Fan, Tianyu Yu, Qixin Xu, Weize Chen, Jiarui Yuan, Huayu Chen, Kaiyan Zhang, Xingtai Lv, Shuo Wang, Yuan Yao, Xu Han, Hao Peng, Yu Cheng, Zhiyuan Liu, Maosong Sun, Bowen Zhou, Ning Ding
cs.AI

초록

밀집 프로세스 보상은 대규모 언어 모델(Large Language Models, LLMs)의 추론 시 스케일링에서 희소 결과 수준의 보상에 비해 더 효과적인 대안으로 입증되었습니다, 특히 복잡한 다단계 추론이 필요한 작업에서. 밀집 보상은 또한 강화 학습(RL)에서 LLMs의 학습에 매력적인 선택지를 제공하는데, 이는 그들의 세밀한 보상이 결과 보상의 학습 효율성 및 신용 할당과 같은 일부 내재적 문제를 해결할 수 있는 잠재력이 있기 때문입니다. 그러나 이 잠재력은 대부분 실현되지 않은 채로 남아 있습니다. 이는 온라인에서 프로세스 보상 모델(Process Reward Models, PRMs)을 훈련하는 과제의 어려움으로 주로 기인하며, 고품질의 프로세스 레이블을 수집하는 것이 가격이 비싸기 때문에 보상 해킹에 취약하게 만듭니다. 이러한 과제를 해결하기 위해 우리는 PRIME (Process Reinforcement through IMplicit rEwards)을 제안합니다. PRIME은 정책 롤아웃과 결과 레이블을 통해 암묵적 프로세스 보상을 사용하여 온라인 PRM 업데이트를 가능하게 합니다. PRIME은 다양한 이점 함수와 잘 결합되며, 기존 접근 방식이 필요로 하는 전용 보상 모델 훈련 단계를 포기함으로써 개발 오버헤드를 크게 줄입니다. 우리는 PRIME의 효과를 수학 및 코딩 대회에서 입증합니다. Qwen2.5-Math-7B-Base에서 시작하여, PRIME은 SFT 모델 대비 여러 주요 추론 벤치마크에서 평균 15.1% 향상을 달성합니다. 특히, 우리의 결과 모델인 Eurus-2-7B-PRIME은 훈련 데이터의 10%로 Qwen2.5-Math-7B-Instruct를 7개의 추론 벤치마크에서 앞섭니다.
English
Dense process rewards have proven a more effective alternative to the sparse outcome-level rewards in the inference-time scaling of large language models (LLMs), particularly in tasks requiring complex multi-step reasoning. While dense rewards also offer an appealing choice for the reinforcement learning (RL) of LLMs since their fine-grained rewards have the potential to address some inherent issues of outcome rewards, such as training efficiency and credit assignment, this potential remains largely unrealized. This can be primarily attributed to the challenges of training process reward models (PRMs) online, where collecting high-quality process labels is prohibitively expensive, making them particularly vulnerable to reward hacking. To address these challenges, we propose PRIME (Process Reinforcement through IMplicit rEwards), which enables online PRM updates using only policy rollouts and outcome labels through implict process rewards. PRIME combines well with various advantage functions and forgoes the dedicated reward model training phrase that existing approaches require, substantially reducing the development overhead. We demonstrate PRIME's effectiveness on competitional math and coding. Starting from Qwen2.5-Math-7B-Base, PRIME achieves a 15.1% average improvement across several key reasoning benchmarks over the SFT model. Notably, our resulting model, Eurus-2-7B-PRIME, surpasses Qwen2.5-Math-7B-Instruct on seven reasoning benchmarks with 10% of its training data.

Summary

AI-Generated Summary

PDF542February 4, 2025