B-STaR: Monitoraggio e Bilanciamento dell'Esplorazione e dello Sfruttamento nei Ragionatori Autodidatti

Abstract

Nell'assenza di dati estensivi annotati da umani per compiti di ragionamento complessi, l'auto-miglioramento - dove i modelli vengono addestrati sui propri output - è emerso come metodo principale per migliorare le prestazioni. Tuttavia, i fattori critici alla base del meccanismo di questi metodi iterativi di auto-miglioramento rimangono scarsamente compresi, come ad esempio in quali condizioni l'auto-miglioramento è efficace e quali sono i colli di bottiglia nelle iterazioni attuali. In questo lavoro, identifichiamo e proponiamo metodi per monitorare due fattori cruciali in questo processo iterativo: (1) la capacità del modello di generare risposte sufficientemente diverse (esplorazione); e (2) l'efficacia delle ricompense esterne nel distinguere candidati di alta qualità da quelli di bassa qualità (sfruttamento). Utilizzando il ragionamento matematico come caso di studio, iniziamo con un'analisi quantitativa per tracciare la dinamica dell'esplorazione e dello sfruttamento, scoprendo che le capacità esplorative di un modello si deteriorano rapidamente nel corso delle iterazioni, così come diminuisce l'efficacia dello sfruttamento delle ricompense esterne. Motivati da questi risultati, introduciamo B-STaR, un framework di Ragionamento Autodidatta che regola autonomamente le configurazioni attraverso le iterazioni per Bilanciare l'esplorazione e lo sfruttamento, ottimizzando così l'efficacia dell'auto-miglioramento in base al modello di politica attuale e alle ricompense disponibili. I nostri esperimenti sul ragionamento matematico, sulla codifica e sul ragionamento di buon senso dimostrano che B-STaR non solo potenzia le capacità esplorative del modello durante tutto l'addestramento, ma raggiunge anche un bilanciamento più efficace tra esplorazione e sfruttamento, portando a prestazioni superiori.

English

In the absence of extensive human-annotated data for complex reasoning tasks, self-improvement -- where models are trained on their own outputs -- has emerged as a primary method for enhancing performance. However, the critical factors underlying the mechanism of these iterative self-improving methods remain poorly understood, such as under what conditions self-improvement is effective, and what are the bottlenecks in the current iterations. In this work, we identify and propose methods to monitor two pivotal factors in this iterative process: (1) the model's ability to generate sufficiently diverse responses (exploration); and (2) the effectiveness of external rewards in distinguishing high-quality candidates from lower-quality ones (exploitation). Using mathematical reasoning as a case study, we begin with a quantitative analysis to track the dynamics of exploration and exploitation, discovering that a model's exploratory capabilities rapidly deteriorate over iterations, and the effectiveness of exploiting external rewards diminishes as well. Motivated by these findings, we introduce B-STaR, a Self-Taught Reasoning framework that autonomously adjusts configurations across iterations to Balance exploration and exploitation, thereby optimizing the self-improving effectiveness based on the current policy model and available rewards. Our experiments on mathematical reasoning, coding, and commonsense reasoning demonstrate that B-STaR not only enhances the model's exploratory capabilities throughout training but also achieves a more effective balance between exploration and exploitation, leading to superior performance.

B-STaR: Monitoraggio e Bilanciamento dell'Esplorazione e dello Sfruttamento nei Ragionatori Autodidatti

B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

Abstract

Summary

Support