Lernen im Kontext und Ockhams Rasiermesser
In-context learning and Occam's razor
October 17, 2024
Autoren: Eric Elmoznino, Tom Marty, Tejas Kasetty, Leo Gagnon, Sarthak Mittal, Mahan Fathi, Dhanya Sridhar, Guillaume Lajoie
cs.AI
Zusammenfassung
Das Ziel des maschinellen Lernens ist die Verallgemeinerung. Während der No-Free-Lunch-Satz besagt, dass wir ohne weitere Annahmen keine theoretischen Garantien für die Verallgemeinerung erhalten können, beobachten wir in der Praxis, dass einfache Modelle, die die Trainingsdaten am besten erklären, am besten verallgemeinern: ein Prinzip, das als Ockhams Rasiermesser bekannt ist. Trotz des Bedarfs an einfachen Modellen minimieren die meisten aktuellen Ansätze im maschinellen Lernen nur den Trainingsfehler und fördern höchstens indirekt die Einfachheit durch Regularisierung oder Architekturdesign. Hier ziehen wir eine Verbindung zwischen Ockhams Rasiermesser und dem kontextbezogenen Lernen: einer aufkommenden Fähigkeit bestimmter Sequenzmodelle wie Transformers, zur Inferenzzeit aus vergangenen Beobachtungen in einer Sequenz zu lernen. Insbesondere zeigen wir, dass der Verlust bei der Vorhersage des nächsten Tokens, der zur Schulung von kontextbezogenen Lernenden verwendet wird, direkt äquivalent zu einer Datenkomprimierungstechnik namens Prequential-Codierung ist, und dass die Minimierung dieses Verlusts darauf hinausläuft, sowohl den Trainingsfehler als auch die Komplexität des Modells, die implizit aus dem Kontext gelernt wurde, gemeinsam zu minimieren. Unsere Theorie und die empirischen Experimente, die wir zur Unterstützung verwenden, liefern nicht nur eine normative Darstellung des kontextbezogenen Lernens, sondern erhellen auch die Mängel der aktuellen kontextbezogenen Lernmethoden und legen nahe, wie sie verbessert werden können. Wir stellen unseren Code unter https://github.com/3rdCore/PrequentialCode zur Verfügung.
English
The goal of machine learning is generalization. While the No Free Lunch
Theorem states that we cannot obtain theoretical guarantees for generalization
without further assumptions, in practice we observe that simple models which
explain the training data generalize best: a principle called Occam's razor.
Despite the need for simple models, most current approaches in machine learning
only minimize the training error, and at best indirectly promote simplicity
through regularization or architecture design. Here, we draw a connection
between Occam's razor and in-context learning: an emergent ability of certain
sequence models like Transformers to learn at inference time from past
observations in a sequence. In particular, we show that the next-token
prediction loss used to train in-context learners is directly equivalent to a
data compression technique called prequential coding, and that minimizing this
loss amounts to jointly minimizing both the training error and the complexity
of the model that was implicitly learned from context. Our theory and the
empirical experiments we use to support it not only provide a normative account
of in-context learning, but also elucidate the shortcomings of current
in-context learning methods, suggesting ways in which they can be improved. We
make our code available at https://github.com/3rdCore/PrequentialCode.Summary
AI-Generated Summary