Prédiction de perte à perte : Lois d'échelle pour tous les ensembles de données
Loss-to-Loss Prediction: Scaling Laws for All Datasets
November 19, 2024
Auteurs: David Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade
cs.AI
Résumé
Alors que les lois d'échelle fournissent une méthodologie fiable pour prédire la perte d'entraînement à travers les échelles de calcul pour une seule distribution de données, on sait moins comment ces prédictions devraient évoluer lorsque nous changeons la distribution. Dans cet article, nous dérivons une stratégie pour prédire une perte à partir d'une autre et l'appliquons pour prédire à travers différentes ensembles de données de pré-entraînement et de données de tâches aval. Nos prédictions s'extrapolent bien même à 20 fois le plus grand budget FLOP utilisé pour ajuster les courbes. Plus précisément, nous constatons qu'il existe des relations de puissance décalées simples entre (1) les pertes d'entraînement de deux modèles entraînés sur deux ensembles de données distincts lorsque les modèles sont appariés par calcul d'entraînement (entraînement-à-entraînement), (2) la perte d'entraînement et la perte de test sur toute distribution aval pour un seul modèle (entraînement-à-test), et (3) les pertes de test de deux modèles entraînés sur deux ensembles de données d'entraînement distincts (test-à-test). Les résultats sont valables pour des ensembles de données de pré-entraînement très différents (certains sont entièrement du code et d'autres n'ont pas de code du tout) et pour une variété de tâches aval. Enfin, nous constatons que dans certains contextes, ces relations de puissance décalées peuvent fournir des prédictions plus précises que l'extrapolation des lois d'échelle pour un seul ensemble de données.
English
While scaling laws provide a reliable methodology for predicting train loss
across compute scales for a single data distribution, less is known about how
these predictions should change as we change the distribution. In this paper,
we derive a strategy for predicting one loss from another and apply it to
predict across different pre-training datasets and from pre-training data to
downstream task data. Our predictions extrapolate well even at 20x the largest
FLOP budget used to fit the curves. More precisely, we find that there are
simple shifted power law relationships between (1) the train losses of two
models trained on two separate datasets when the models are paired by training
compute (train-to-train), (2) the train loss and the test loss on any
downstream distribution for a single model (train-to-test), and (3) the test
losses of two models trained on two separate train datasets (test-to-test). The
results hold up for pre-training datasets that differ substantially (some are
entirely code and others have no code at all) and across a variety of
downstream tasks. Finally, we find that in some settings these shifted power
law relationships can yield more accurate predictions than extrapolating
single-dataset scaling laws.Summary
AI-Generated Summary