Voorspelling van verlies-tot-verlies: Schaalwetten voor alle datasets
Loss-to-Loss Prediction: Scaling Laws for All Datasets
November 19, 2024
Auteurs: David Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade
cs.AI
Samenvatting
Hoewel schaalwetten een betrouwbare methodologie bieden voor het voorspellen van trainingsverlies over rekenkundige schalen voor een enkele gegevensverdeling, is er minder bekend over hoe deze voorspellingen zouden moeten veranderen wanneer we de verdeling veranderen. In dit artikel leiden we een strategie af voor het voorspellen van het ene verlies uit het andere en passen we deze toe om te voorspellen over verschillende voorafgaande trainingsdatasets en van voorafgaande trainingsgegevens naar gegevens voor taakuitvoering. Onze voorspellingen extrapoleren zelfs goed tot 20x het grootste FLOP-budget dat is gebruikt om de curven te passen. Meer specifiek vinden we dat er eenvoudige verschoven machtsverhoudingen zijn tussen (1) de trainingsverliezen van twee modellen getraind op twee afzonderlijke datasets wanneer de modellen worden gekoppeld door trainingsberekening (train-to-train), (2) het trainingsverlies en het testverlies op elke taakuitvoeringsverdeling voor een enkel model (train-to-test), en (3) de testverliezen van twee modellen getraind op twee afzonderlijke trainingsdatasets (test-to-test). De resultaten gelden voor voorafgaande trainingsdatasets die aanzienlijk verschillen (sommige zijn volledig code en andere hebben helemaal geen code) en voor een verscheidenheid aan taken voor taakuitvoering. Tot slot vinden we dat in sommige situaties deze verschoven machtsverhoudingen nauwkeurigere voorspellingen kunnen opleveren dan het extrapoleren van schaalwetten voor enkele datasets.
English
While scaling laws provide a reliable methodology for predicting train loss
across compute scales for a single data distribution, less is known about how
these predictions should change as we change the distribution. In this paper,
we derive a strategy for predicting one loss from another and apply it to
predict across different pre-training datasets and from pre-training data to
downstream task data. Our predictions extrapolate well even at 20x the largest
FLOP budget used to fit the curves. More precisely, we find that there are
simple shifted power law relationships between (1) the train losses of two
models trained on two separate datasets when the models are paired by training
compute (train-to-train), (2) the train loss and the test loss on any
downstream distribution for a single model (train-to-test), and (3) the test
losses of two models trained on two separate train datasets (test-to-test). The
results hold up for pre-training datasets that differ substantially (some are
entirely code and others have no code at all) and across a variety of
downstream tasks. Finally, we find that in some settings these shifted power
law relationships can yield more accurate predictions than extrapolating
single-dataset scaling laws.Summary
AI-Generated Summary