Genius: Un Framework Generalizzabile e Puramente Non Supervisionato per l'Addestramento Automatico nel Ragionamento Avanzato
Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning
April 11, 2025
Autori: Fangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu
cs.AI
Abstract
Il miglioramento delle capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) ha suscitato un ampio interesse. Tuttavia, le attuali tecniche di post-addestramento si basano fortemente su segnali di supervisione, come la supervisione sui risultati o modelli di ricompensa ausiliari, che affrontano problemi di scalabilità e alti costi di annotazione. Ciò ci motiva a potenziare il ragionamento degli LLM senza la necessità di supervisione esterna. Introduciamo un framework di auto-addestramento generalizzabile e puramente non supervisionato, denominato Genius. Senza ausili esterni, Genius richiede di cercare la sequenza di risposta ottimale in modo graduale e di ottimizzare l'LLM. Per esplorare i potenziali passaggi e sfruttare quelli ottimali, Genius introduce una strategia di ricampionamento prospettico graduale per campionare e stimare il valore del passaggio simulando risultati futuri. Inoltre, riconosciamo che l'impostazione non supervisionata induce inevitabilmente rumore intrinseco e incertezza. Per fornire un'ottimizzazione robusta, proponiamo una funzione di perdita di ottimizzazione calibrata sul vantaggio (ACO) per mitigare le inconsistenze di stima. Combinando queste tecniche, Genius rappresenta un avanzato passo iniziale verso il miglioramento autonomo del ragionamento degli LLM con query generali e senza supervisione, rivoluzionando le leggi di scala del ragionamento data la vasta disponibilità di query generali. Il codice sarà rilasciato su https://github.com/xufangzhi/Genius.
English
Advancing LLM reasoning skills has captivated wide interest. However, current
post-training techniques rely heavily on supervisory signals, such as outcome
supervision or auxiliary reward models, which face the problem of scalability
and high annotation costs. This motivates us to enhance LLM reasoning without
the need for external supervision. We introduce a generalizable and purely
unsupervised self-training framework, named Genius. Without external auxiliary,
Genius requires to seek the optimal response sequence in a stepwise manner and
optimize the LLM. To explore the potential steps and exploit the optimal ones,
Genius introduces a stepwise foresight re-sampling strategy to sample and
estimate the step value by simulating future outcomes. Further, we recognize
that the unsupervised setting inevitably induces the intrinsic noise and
uncertainty. To provide a robust optimization, we propose an
advantage-calibrated optimization (ACO) loss function to mitigate estimation
inconsistencies. Combining these techniques together, Genius provides an
advanced initial step towards self-improve LLM reasoning with general queries
and without supervision, revolutionizing reasoning scaling laws given the vast
availability of general queries. The code will be released at
https://github.com/xufangzhi/Genius.Summary
AI-Generated Summary