Ragionamento per Apprendere da Pensieri Latenti
Reasoning to Learn from Latent Thoughts
March 24, 2025
Autori: Yangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto
cs.AI
Abstract
Il ridimensionamento computazionale per il pre-addestramento dei modelli linguistici (LM) ha superato la crescita dei testi scritti da esseri umani, portando a preoccupazioni che i dati possano diventare il collo di bottiglia per il ridimensionamento dei LM. Per continuare a scalare il pre-addestramento in questo regime di vincoli sui dati, proponiamo che la modellazione e l'inferenza esplicita dei pensieri latenti che sottendono il processo di generazione del testo possano migliorare significativamente l'efficienza dei dati nel pre-addestramento. Intuitivamente, il nostro approccio considera il testo web come il risultato finale compresso di un processo di pensiero umano verboso e che i pensieri latenti contengono conoscenze contestuali e passaggi di ragionamento cruciali per un apprendimento efficiente dei dati. Dimostriamo empiricamente l'efficacia del nostro approccio attraverso il pre-addestramento continuato con vincoli di dati per la matematica. In primo luogo, mostriamo che gli approcci con dati sintetici per inferire i pensieri latenti migliorano significativamente l'efficienza dei dati, superando l'addestramento sulla stessa quantità di dati grezzi (5,7\% → 25,4\% su MATH). Inoltre, dimostriamo l'inferenza dei pensieri latenti senza un insegnante forte, dove un LM migliora autonomamente le proprie prestazioni utilizzando un algoritmo EM per migliorare iterativamente la capacità del LM addestrato e la qualità dei dati di pre-addestramento arricchiti dai pensieri. Mostriamo che un LM da 1B può migliorare le proprie prestazioni attraverso almeno tre iterazioni e superare significativamente i baseline addestrati su dati grezzi, con guadagni crescenti dall'ulteriore potenza di calcolo dedicata all'inferenza durante l'esecuzione del passo E. I guadagni derivanti dal ridimensionamento dell'inferenza e dalle iterazioni EM suggeriscono nuove opportunità per scalare il pre-addestramento con vincoli di dati.
English
Compute scaling for language model (LM) pretraining has outpaced the growth
of human-written texts, leading to concerns that data will become the
bottleneck to LM scaling. To continue scaling pretraining in this
data-constrained regime, we propose that explicitly modeling and inferring the
latent thoughts that underlie the text generation process can significantly
improve pretraining data efficiency. Intuitively, our approach views web text
as the compressed final outcome of a verbose human thought process and that the
latent thoughts contain important contextual knowledge and reasoning steps that
are critical to data-efficient learning. We empirically demonstrate the
effectiveness of our approach through data-constrained continued pretraining
for math. We first show that synthetic data approaches to inferring latent
thoughts significantly improve data efficiency, outperforming training on the
same amount of raw data (5.7\% rightarrow 25.4\% on MATH). Furthermore, we
demonstrate latent thought inference without a strong teacher, where an LM
bootstraps its own performance by using an EM algorithm to iteratively improve
the capability of the trained LM and the quality of thought-augmented
pretraining data. We show that a 1B LM can bootstrap its performance across at
least three iterations and significantly outperform baselines trained on raw
data, with increasing gains from additional inference compute when performing
the E-step. The gains from inference scaling and EM iterations suggest new
opportunities for scaling data-constrained pretraining.Summary
AI-Generated Summary