B-STaR: Monitoramento e Equilíbrio da Exploração e Exploração em Raciocinadores Autoaprendidos

Resumo

Na ausência de extensos dados humanos anotados para tarefas de raciocínio complexas, a autoaperfeiçoamento - onde modelos são treinados com base em suas próprias saídas - surgiu como um método primário para aprimorar o desempenho. No entanto, os fatores críticos subjacentes ao mecanismo desses métodos iterativos de autoaperfeiçoamento ainda são mal compreendidos, como em que condições a autoaperfeiçoamento é eficaz e quais são os gargalos nas iterações atuais. Neste trabalho, identificamos e propomos métodos para monitorar dois fatores cruciais nesse processo iterativo: (1) a capacidade do modelo de gerar respostas suficientemente diversas (exploração); e (2) a eficácia de recompensas externas em distinguir candidatos de alta qualidade dos de baixa qualidade (exploração). Usando o raciocínio matemático como estudo de caso, começamos com uma análise quantitativa para rastrear a dinâmica da exploração e exploração, descobrindo que as capacidades exploratórias de um modelo deterioram rapidamente ao longo das iterações, e a eficácia de explorar recompensas externas também diminui. Motivados por essas descobertas, introduzimos o B-STaR, um framework de Raciocínio Autodidata que ajusta autonomamente configurações ao longo das iterações para Balancear exploração e exploração, otimizando assim a eficácia de autoaperfeiçoamento com base no modelo de política atual e recompensas disponíveis. Nossos experimentos em raciocínio matemático, programação e raciocínio do senso comum demonstram que o B-STaR não apenas aprimora as capacidades exploratórias do modelo durante todo o treinamento, mas também alcança um equilíbrio mais eficaz entre exploração e exploração, resultando em um desempenho superior.

English

In the absence of extensive human-annotated data for complex reasoning tasks, self-improvement -- where models are trained on their own outputs -- has emerged as a primary method for enhancing performance. However, the critical factors underlying the mechanism of these iterative self-improving methods remain poorly understood, such as under what conditions self-improvement is effective, and what are the bottlenecks in the current iterations. In this work, we identify and propose methods to monitor two pivotal factors in this iterative process: (1) the model's ability to generate sufficiently diverse responses (exploration); and (2) the effectiveness of external rewards in distinguishing high-quality candidates from lower-quality ones (exploitation). Using mathematical reasoning as a case study, we begin with a quantitative analysis to track the dynamics of exploration and exploitation, discovering that a model's exploratory capabilities rapidly deteriorate over iterations, and the effectiveness of exploiting external rewards diminishes as well. Motivated by these findings, we introduce B-STaR, a Self-Taught Reasoning framework that autonomously adjusts configurations across iterations to Balance exploration and exploitation, thereby optimizing the self-improving effectiveness based on the current policy model and available rewards. Our experiments on mathematical reasoning, coding, and commonsense reasoning demonstrate that B-STaR not only enhances the model's exploratory capabilities throughout training but also achieves a more effective balance between exploration and exploitation, leading to superior performance.

B-STaR: Monitoramento e Equilíbrio da Exploração e Exploração em Raciocinadores Autoaprendidos

B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

Resumo

Support