Apprentissage en contexte et rasoir d'Ockham
In-context learning and Occam's razor
October 17, 2024
Auteurs: Eric Elmoznino, Tom Marty, Tejas Kasetty, Leo Gagnon, Sarthak Mittal, Mahan Fathi, Dhanya Sridhar, Guillaume Lajoie
cs.AI
Résumé
L'objectif de l'apprentissage automatique est la généralisation. Alors que le Théorème du No Free Lunch stipule que nous ne pouvons pas obtenir de garanties théoriques pour la généralisation sans autres hypothèses, en pratique nous observons que les modèles simples qui expliquent les données d'entraînement généralisent le mieux : un principe appelé le rasoir d'Occam. Malgré le besoin de modèles simples, la plupart des approches actuelles en apprentissage automatique se contentent de minimiser l'erreur d'entraînement, et favorisent au mieux indirectement la simplicité à travers la régularisation ou la conception de l'architecture. Ici, nous établissons un lien entre le rasoir d'Occam et l'apprentissage en contexte : une capacité émergente de certains modèles de séquences comme les Transformers à apprendre au moment de l'inférence à partir des observations passées dans une séquence. En particulier, nous montrons que la perte de prédiction du prochain token utilisée pour entraîner les apprenants en contexte est directement équivalente à une technique de compression des données appelée codage préquential, et que la minimisation de cette perte revient à minimiser conjointement à la fois l'erreur d'entraînement et la complexité du modèle qui a été implicitement appris à partir du contexte. Notre théorie et les expériences empiriques que nous utilisons pour la soutenir fournissent non seulement un compte normatif de l'apprentissage en contexte, mais éclairent également les lacunes des méthodes actuelles d'apprentissage en contexte, suggérant des moyens de les améliorer. Nous mettons notre code à disposition sur https://github.com/3rdCore/PrequentialCode.
English
The goal of machine learning is generalization. While the No Free Lunch
Theorem states that we cannot obtain theoretical guarantees for generalization
without further assumptions, in practice we observe that simple models which
explain the training data generalize best: a principle called Occam's razor.
Despite the need for simple models, most current approaches in machine learning
only minimize the training error, and at best indirectly promote simplicity
through regularization or architecture design. Here, we draw a connection
between Occam's razor and in-context learning: an emergent ability of certain
sequence models like Transformers to learn at inference time from past
observations in a sequence. In particular, we show that the next-token
prediction loss used to train in-context learners is directly equivalent to a
data compression technique called prequential coding, and that minimizing this
loss amounts to jointly minimizing both the training error and the complexity
of the model that was implicitly learned from context. Our theory and the
empirical experiments we use to support it not only provide a normative account
of in-context learning, but also elucidate the shortcomings of current
in-context learning methods, suggesting ways in which they can be improved. We
make our code available at https://github.com/3rdCore/PrequentialCode.Summary
AI-Generated Summary