B-STaR: 자기 학습 추론기에서의 탐험과 이용 균형 조절 및 모니터링
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners
December 23, 2024
저자: Weihao Zeng, Yuzhen Huang, Lulu Zhao, Yijun Wang, Zifei Shan, Junxian He
cs.AI
초록
복잡한 추론 작업에 대한 방대한 인간 주석 데이터가 없는 경우, 자가 향상 - 모델이 자체 출력에 대해 훈련되는 방식 -이 성능을 향상시키는 주요 방법으로 등장했습니다. 그러나 이 반복적인 자가 향상 방법의 메커니즘을 지탱하는 중요한 요소들은 여전히 잘 이해되지 않고 있습니다. 자가 향상이 어떤 조건에서 효과적인지, 그리고 현재의 반복에서 병목 현상이 무엇인지와 같은 문제입니다. 본 연구에서는 이 반복적 과정에서 두 가지 중요한 요소를 모니터링하고 제안하는 방법을 식별합니다: (1) 모델이 충분히 다양한 응답을 생성할 수 있는 능력(탐험); 그리고 (2) 외부 보상이 높은 품질의 후보자와 낮은 품질의 후보자를 구별하는 데 효과적인지(이용). 수학적 추론을 사례 연구로 삼아, 우리는 탐험과 이용의 동역학을 추적하는 양적 분석을 시작하여, 모델의 탐험 능력이 반복을 거듭할수록 신속하게 약화되고, 외부 보상을 활용하는 효과도 줄어든다는 것을 발견했습니다. 이러한 발견을 바탕으로, 우리는 B-STaR을 소개합니다. 이는 현재 정책 모델과 사용 가능한 보상에 기초하여 탐험과 이용을 균형있게 조정하는 자가 학습 추론 프레임워크로, 이를 통해 자가 향상 효과를 최적화합니다. 수학적 추론, 코딩 및 상식적 추론에 대한 실험 결과는, B-STaR이 훈련 과정 전반에 걸쳐 모델의 탐험 능력을 향상시키는데 그치지 않고, 탐험과 이용 사이의 더 효과적인 균형을 이루어 우수한 성능을 달성한다는 것을 입증합니다.
English
In the absence of extensive human-annotated data for complex reasoning tasks,
self-improvement -- where models are trained on their own outputs -- has
emerged as a primary method for enhancing performance. However, the critical
factors underlying the mechanism of these iterative self-improving methods
remain poorly understood, such as under what conditions self-improvement is
effective, and what are the bottlenecks in the current iterations. In this
work, we identify and propose methods to monitor two pivotal factors in this
iterative process: (1) the model's ability to generate sufficiently diverse
responses (exploration); and (2) the effectiveness of external rewards in
distinguishing high-quality candidates from lower-quality ones (exploitation).
Using mathematical reasoning as a case study, we begin with a quantitative
analysis to track the dynamics of exploration and exploitation, discovering
that a model's exploratory capabilities rapidly deteriorate over iterations,
and the effectiveness of exploiting external rewards diminishes as well.
Motivated by these findings, we introduce B-STaR, a Self-Taught Reasoning
framework that autonomously adjusts configurations across iterations to Balance
exploration and exploitation, thereby optimizing the self-improving
effectiveness based on the current policy model and available rewards. Our
experiments on mathematical reasoning, coding, and commonsense reasoning
demonstrate that B-STaR not only enhances the model's exploratory capabilities
throughout training but also achieves a more effective balance between
exploration and exploitation, leading to superior performance.