수학 추론 학습의 결과 보상 한계 탐색
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning
February 10, 2025
저자: Chengqi Lyu, Songyang Gao, Yuzhe Gu, Wenwei Zhang, Jianfei Gao, Kuikun Liu, Ziyi Wang, Shuaibin Li, Qian Zhao, Haian Huang, Weihan Cao, Jiangning Liu, Hongwei Liu, Junnan Liu, Songyang Zhang, Dahua Lin, Kai Chen
cs.AI
초록
추론 능력, 특히 복잡한 수학 문제 해결 능력은 일반적 지능의 중요한 구성 요소입니다. OpenAI의 o-시리즈 모델과 같은 프로프리어터리 기업들의 최근 발전은 추론 작업에서 현저한 진전을 이루었습니다. 그러나 완전한 기술적 세부 사항은 아직 공개되지 않았으며, 확실히 채택된 기술은 강화 학습 (RL)과 오랜 사고 체인만 있다는 것입니다. 본 논문은 수학적 추론 작업을 위해 이진 결과 보상만 쉽게 접근 가능한 환경에서 달성할 수 있는 성능 한계를 추구하기 위한 새로운 강화 학습 프레임워크인 OREAL을 제안합니다. 우리는 이론적으로 BoN 샘플링에서 양의 궤적에 대한 행동 복제가 KL-정규화된 최적 정책을 학습하는 데 충분하다는 것을 증명합니다. 이 공식은 또한 음의 샘플 보상이 양의 샘플과의 그래디언트 일관성을 보장하기 위해 재구성되어야 함을 시사합니다. 강화 학습에서 희소 보상에 의해 야기되는 오랜 기간의 어려움을 완화하기 위해, 특히 추론 작업의 오랜 사고 체인의 부분적 정확성에 의해 악화되는 어려움을 더 이상 적용하기 위해 토큰 수준 보상 모델을 적용하여 추론 궤적에서 중요한 토큰을 샘플링합니다. OREAL을 통해 처음으로 7B 모델이 MATH-500에서 94.0 pass@1 정확도를 RL을 통해 달성할 수 있었으며, 32B 모델과 비등합니다. OREAL-32B는 또한 MATH-500에서 95.0 pass@1 정확도로 디스틸레이션으로 훈련된 이전 32B 모델을 능가했습니다. 우리의 조사는 강화 학습을 위한 초기 정책 모델과 훈련 쿼리의 중요성을 나타냅니다. 코드, 모델 및 데이터는 향후 연구에 도움이 되도록 공개될 예정입니다. (https://github.com/InternLM/OREAL)
English
Reasoning abilities, especially those for solving complex math problems, are
crucial components of general intelligence. Recent advances by proprietary
companies, such as o-series models of OpenAI, have made remarkable progress on
reasoning tasks. However, the complete technical details remain unrevealed, and
the techniques that are believed certainly to be adopted are only reinforcement
learning (RL) and the long chain of thoughts. This paper proposes a new RL
framework, termed OREAL, to pursue the performance limit that can be achieved
through Outcome REwArd-based reinforcement
Learning for mathematical reasoning tasks, where only binary outcome
rewards are easily accessible. We theoretically prove that behavior cloning on
positive trajectories from best-of-N (BoN) sampling is sufficient to learn the
KL-regularized optimal policy in binary feedback environments. This formulation
further implies that the rewards of negative samples should be reshaped to
ensure the gradient consistency between positive and negative samples. To
alleviate the long-existing difficulties brought by sparse rewards in RL, which
are even exacerbated by the partial correctness of the long chain of thought
for reasoning tasks, we further apply a token-level reward model to sample
important tokens in reasoning trajectories for learning. With OREAL, for the
first time, a 7B model can obtain 94.0 pass@1 accuracy on MATH-500 through RL,
being on par with 32B models. OREAL-32B also surpasses previous 32B models
trained by distillation with 95.0 pass@1 accuracy on MATH-500. Our
investigation also indicates the importance of initial policy models and
training queries for RL. Code, models, and data will be released to benefit
future researchhttps://github.com/InternLM/OREAL.Summary
AI-Generated Summary