Schlussfolgerung zum Lernen aus latenten Gedanken
Reasoning to Learn from Latent Thoughts
March 24, 2025
Autoren: Yangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto
cs.AI
Zusammenfassung
Die Skalierung der Rechenleistung für das Vortraining von Sprachmodellen (LM) hat das Wachstum von menschlich verfassten Texten übertroffen, was zu Bedenken führt, dass Daten zum Engpass für die Skalierung von LMs werden könnten. Um das Vortraining in diesem datenbegrenzten Regime weiter zu skalieren, schlagen wir vor, dass die explizite Modellierung und Inferenz der latenten Gedanken, die dem Textgenerierungsprozess zugrunde liegen, die Dateneffizienz des Vortrainings erheblich verbessern kann. Intuitiv betrachtet unser Ansatz Webtexte als das komprimierte Endergebnis eines ausführlichen menschlichen Denkprozesses und sieht in den latenten Gedanken wichtiges kontextuelles Wissen und Schlussfolgerungsschritte, die für dateneffizientes Lernen entscheidend sind. Wir demonstrieren die Wirksamkeit unseres Ansatzes empirisch durch datenbegrenztes fortgesetztes Vortraining für Mathematik. Zunächst zeigen wir, dass synthetische Datenansätze zur Inferenz latenter Gedanken die Dateneffizienz signifikant verbessern und das Training mit der gleichen Menge an Rohdaten übertreffen (5,7\% \rightarrow 25,4\% auf MATH). Darüber hinaus demonstrieren wir die Inferenz latenter Gedanken ohne einen starken Lehrer, bei der ein LM seine eigene Leistung durch einen EM-Algorithmus bootstrappt, um die Fähigkeit des trainierten LMs und die Qualität der gedankenerweiterten Vortrainingsdaten iterativ zu verbessern. Wir zeigen, dass ein 1B-LM seine Leistung über mindestens drei Iterationen bootstrappen und Baselines, die mit Rohdaten trainiert wurden, deutlich übertreffen kann, mit zunehmenden Gewinnen durch zusätzliche Inferenzrechenleistung bei der Durchführung des E-Schritts. Die Gewinne aus der Skalierung der Inferenz und den EM-Iterationen deuten auf neue Möglichkeiten für die Skalierung des datenbegrenzten Vortrainings hin.
English
Compute scaling for language model (LM) pretraining has outpaced the growth
of human-written texts, leading to concerns that data will become the
bottleneck to LM scaling. To continue scaling pretraining in this
data-constrained regime, we propose that explicitly modeling and inferring the
latent thoughts that underlie the text generation process can significantly
improve pretraining data efficiency. Intuitively, our approach views web text
as the compressed final outcome of a verbose human thought process and that the
latent thoughts contain important contextual knowledge and reasoning steps that
are critical to data-efficient learning. We empirically demonstrate the
effectiveness of our approach through data-constrained continued pretraining
for math. We first show that synthetic data approaches to inferring latent
thoughts significantly improve data efficiency, outperforming training on the
same amount of raw data (5.7\% rightarrow 25.4\% on MATH). Furthermore, we
demonstrate latent thought inference without a strong teacher, where an LM
bootstraps its own performance by using an EM algorithm to iteratively improve
the capability of the trained LM and the quality of thought-augmented
pretraining data. We show that a 1B LM can bootstrap its performance across at
least three iterations and significantly outperform baselines trained on raw
data, with increasing gains from additional inference compute when performing
the E-step. The gains from inference scaling and EM iterations suggest new
opportunities for scaling data-constrained pretraining.Summary
AI-Generated Summary