In-context leren en Occam's scheermes.
In-context learning and Occam's razor
October 17, 2024
Auteurs: Eric Elmoznino, Tom Marty, Tejas Kasetty, Leo Gagnon, Sarthak Mittal, Mahan Fathi, Dhanya Sridhar, Guillaume Lajoie
cs.AI
Samenvatting
Het doel van machine learning is generalisatie. Hoewel de Stelling van Geen Gratis Lunch stelt dat we geen theoretische garanties voor generalisatie kunnen verkrijgen zonder verdere aannames, observeren we in de praktijk dat eenvoudige modellen die de trainingsgegevens verklaren het beste generaliseren: een principe dat bekend staat als Occam's scheermes. Ondanks de behoefte aan eenvoudige modellen, minimaliseren de meeste huidige benaderingen in machine learning alleen de trainingsfout, en bevorderen hoogstens indirect eenvoud door regularisatie of architectuurontwerp. Hier leggen we een verband tussen Occam's scheermes en in-context leren: een opkomende vaardigheid van bepaalde sequentiële modellen zoals Transformers om tijdens inferentie te leren van eerdere waarnemingen in een sequentie. In het bijzonder tonen we aan dat het verlies bij voorspelling van het volgende token dat wordt gebruikt om in-context leerlingen te trainen, rechtstreeks equivalent is aan een gegevenscompressietechniek genaamd prequential codering, en dat het minimaliseren van dit verlies neerkomt op het gezamenlijk minimaliseren van zowel de trainingsfout als de complexiteit van het model dat impliciet is geleerd uit de context. Onze theorie en de empirische experimenten die we gebruiken om deze te ondersteunen, bieden niet alleen een normatieve verklaring van in-context leren, maar verhelderen ook de tekortkomingen van huidige in-context leermethoden, waarbij wordt gesuggereerd op welke manieren ze kunnen worden verbeterd. We stellen onze code beschikbaar op https://github.com/3rdCore/PrequentialCode.
English
The goal of machine learning is generalization. While the No Free Lunch
Theorem states that we cannot obtain theoretical guarantees for generalization
without further assumptions, in practice we observe that simple models which
explain the training data generalize best: a principle called Occam's razor.
Despite the need for simple models, most current approaches in machine learning
only minimize the training error, and at best indirectly promote simplicity
through regularization or architecture design. Here, we draw a connection
between Occam's razor and in-context learning: an emergent ability of certain
sequence models like Transformers to learn at inference time from past
observations in a sequence. In particular, we show that the next-token
prediction loss used to train in-context learners is directly equivalent to a
data compression technique called prequential coding, and that minimizing this
loss amounts to jointly minimizing both the training error and the complexity
of the model that was implicitly learned from context. Our theory and the
empirical experiments we use to support it not only provide a normative account
of in-context learning, but also elucidate the shortcomings of current
in-context learning methods, suggesting ways in which they can be improved. We
make our code available at https://github.com/3rdCore/PrequentialCode.Summary
AI-Generated Summary