B-STaR: Monitoramento e Equilíbrio da Exploração e Exploração em Raciocinadores Autoaprendidos
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners
December 23, 2024
Autores: Weihao Zeng, Yuzhen Huang, Lulu Zhao, Yijun Wang, Zifei Shan, Junxian He
cs.AI
Resumo
Na ausência de extensos dados humanos anotados para tarefas de raciocínio complexas, a autoaperfeiçoamento - onde modelos são treinados com base em suas próprias saídas - surgiu como um método primário para aprimorar o desempenho. No entanto, os fatores críticos subjacentes ao mecanismo desses métodos iterativos de autoaperfeiçoamento ainda são mal compreendidos, como em que condições a autoaperfeiçoamento é eficaz e quais são os gargalos nas iterações atuais. Neste trabalho, identificamos e propomos métodos para monitorar dois fatores cruciais nesse processo iterativo: (1) a capacidade do modelo de gerar respostas suficientemente diversas (exploração); e (2) a eficácia de recompensas externas em distinguir candidatos de alta qualidade dos de baixa qualidade (exploração). Usando o raciocínio matemático como estudo de caso, começamos com uma análise quantitativa para rastrear a dinâmica da exploração e exploração, descobrindo que as capacidades exploratórias de um modelo deterioram rapidamente ao longo das iterações, e a eficácia de explorar recompensas externas também diminui. Motivados por essas descobertas, introduzimos o B-STaR, um framework de Raciocínio Autodidata que ajusta autonomamente configurações ao longo das iterações para Balancear exploração e exploração, otimizando assim a eficácia de autoaperfeiçoamento com base no modelo de política atual e recompensas disponíveis. Nossos experimentos em raciocínio matemático, programação e raciocínio do senso comum demonstram que o B-STaR não apenas aprimora as capacidades exploratórias do modelo durante todo o treinamento, mas também alcança um equilíbrio mais eficaz entre exploração e exploração, resultando em um desempenho superior.
English
In the absence of extensive human-annotated data for complex reasoning tasks,
self-improvement -- where models are trained on their own outputs -- has
emerged as a primary method for enhancing performance. However, the critical
factors underlying the mechanism of these iterative self-improving methods
remain poorly understood, such as under what conditions self-improvement is
effective, and what are the bottlenecks in the current iterations. In this
work, we identify and propose methods to monitor two pivotal factors in this
iterative process: (1) the model's ability to generate sufficiently diverse
responses (exploration); and (2) the effectiveness of external rewards in
distinguishing high-quality candidates from lower-quality ones (exploitation).
Using mathematical reasoning as a case study, we begin with a quantitative
analysis to track the dynamics of exploration and exploitation, discovering
that a model's exploratory capabilities rapidly deteriorate over iterations,
and the effectiveness of exploiting external rewards diminishes as well.
Motivated by these findings, we introduce B-STaR, a Self-Taught Reasoning
framework that autonomously adjusts configurations across iterations to Balance
exploration and exploitation, thereby optimizing the self-improving
effectiveness based on the current policy model and available rewards. Our
experiments on mathematical reasoning, coding, and commonsense reasoning
demonstrate that B-STaR not only enhances the model's exploratory capabilities
throughout training but also achieves a more effective balance between
exploration and exploitation, leading to superior performance.Summary
AI-Generated Summary