ChatPaper.aiChatPaper

수학 추론 학습의 결과 보상 한계 탐색

Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

February 10, 2025
저자: Chengqi Lyu, Songyang Gao, Yuzhe Gu, Wenwei Zhang, Jianfei Gao, Kuikun Liu, Ziyi Wang, Shuaibin Li, Qian Zhao, Haian Huang, Weihan Cao, Jiangning Liu, Hongwei Liu, Junnan Liu, Songyang Zhang, Dahua Lin, Kai Chen
cs.AI

초록

추론 능력, 특히 복잡한 수학 문제 해결 능력은 일반적 지능의 중요한 구성 요소입니다. OpenAI의 o-시리즈 모델과 같은 프로프리어터리 기업들의 최근 발전은 추론 작업에서 현저한 진전을 이루었습니다. 그러나 완전한 기술적 세부 사항은 아직 공개되지 않았으며, 확실히 채택된 기술은 강화 학습 (RL)과 오랜 사고 체인만 있다는 것입니다. 본 논문은 수학적 추론 작업을 위해 이진 결과 보상만 쉽게 접근 가능한 환경에서 달성할 수 있는 성능 한계를 추구하기 위한 새로운 강화 학습 프레임워크인 OREAL을 제안합니다. 우리는 이론적으로 BoN 샘플링에서 양의 궤적에 대한 행동 복제가 KL-정규화된 최적 정책을 학습하는 데 충분하다는 것을 증명합니다. 이 공식은 또한 음의 샘플 보상이 양의 샘플과의 그래디언트 일관성을 보장하기 위해 재구성되어야 함을 시사합니다. 강화 학습에서 희소 보상에 의해 야기되는 오랜 기간의 어려움을 완화하기 위해, 특히 추론 작업의 오랜 사고 체인의 부분적 정확성에 의해 악화되는 어려움을 더 이상 적용하기 위해 토큰 수준 보상 모델을 적용하여 추론 궤적에서 중요한 토큰을 샘플링합니다. OREAL을 통해 처음으로 7B 모델이 MATH-500에서 94.0 pass@1 정확도를 RL을 통해 달성할 수 있었으며, 32B 모델과 비등합니다. OREAL-32B는 또한 MATH-500에서 95.0 pass@1 정확도로 디스틸레이션으로 훈련된 이전 32B 모델을 능가했습니다. 우리의 조사는 강화 학습을 위한 초기 정책 모델과 훈련 쿼리의 중요성을 나타냅니다. 코드, 모델 및 데이터는 향후 연구에 도움이 되도록 공개될 예정입니다. (https://github.com/InternLM/OREAL)
English
Reasoning abilities, especially those for solving complex math problems, are crucial components of general intelligence. Recent advances by proprietary companies, such as o-series models of OpenAI, have made remarkable progress on reasoning tasks. However, the complete technical details remain unrevealed, and the techniques that are believed certainly to be adopted are only reinforcement learning (RL) and the long chain of thoughts. This paper proposes a new RL framework, termed OREAL, to pursue the performance limit that can be achieved through Outcome REwArd-based reinforcement Learning for mathematical reasoning tasks, where only binary outcome rewards are easily accessible. We theoretically prove that behavior cloning on positive trajectories from best-of-N (BoN) sampling is sufficient to learn the KL-regularized optimal policy in binary feedback environments. This formulation further implies that the rewards of negative samples should be reshaped to ensure the gradient consistency between positive and negative samples. To alleviate the long-existing difficulties brought by sparse rewards in RL, which are even exacerbated by the partial correctness of the long chain of thought for reasoning tasks, we further apply a token-level reward model to sample important tokens in reasoning trajectories for learning. With OREAL, for the first time, a 7B model can obtain 94.0 pass@1 accuracy on MATH-500 through RL, being on par with 32B models. OREAL-32B also surpasses previous 32B models trained by distillation with 95.0 pass@1 accuracy on MATH-500. Our investigation also indicates the importance of initial policy models and training queries for RL. Code, models, and data will be released to benefit future researchhttps://github.com/InternLM/OREAL.

Summary

AI-Generated Summary

PDF596February 11, 2025