Ripensare la riflessione nel pre-addestramento
Rethinking Reflection in Pre-Training
April 5, 2025
Autori: Essential AI, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski
cs.AI
Abstract
La capacità di un modello linguistico di riflettere sul proprio ragionamento rappresenta un vantaggio cruciale per risolvere problemi complessi. Sebbene la maggior parte delle ricerche recenti si sia concentrata su come questa capacità si sviluppi durante l'apprendimento per rinforzo, dimostriamo che in realtà emerge molto prima, durante la fase di pre-addestramento del modello. Per studiare questo fenomeno, introduciamo errori deliberati nelle catene di ragionamento e testiamo se il modello è ancora in grado di arrivare alla risposta corretta riconoscendo e correggendo questi errori. Monitorando le prestazioni attraverso diverse fasi del pre-addestramento, osserviamo che questa capacità di autocorrezione appare precocemente e migliora costantemente nel tempo. Ad esempio, un modello OLMo2-7B pre-addestrato su 4 trilioni di token mostra autocorrezione nei nostri sei compiti di autoriflessione.
English
A language model's ability to reflect on its own reasoning provides a key
advantage for solving complex problems. While most recent research has focused
on how this ability develops during reinforcement learning, we show that it
actually begins to emerge much earlier - during the model's pre-training. To
study this, we introduce deliberate errors into chains-of-thought and test
whether the model can still arrive at the correct answer by recognizing and
correcting these mistakes. By tracking performance across different stages of
pre-training, we observe that this self-correcting ability appears early and
improves steadily over time. For instance, an OLMo2-7B model pre-trained on 4
trillion tokens displays self-correction on our six self-reflection tasks.Summary
AI-Generated Summary