Voorspelling van verlies-tot-verlies: Schaalwetten voor alle datasets

Samenvatting

Hoewel schaalwetten een betrouwbare methodologie bieden voor het voorspellen van trainingsverlies over rekenkundige schalen voor een enkele gegevensverdeling, is er minder bekend over hoe deze voorspellingen zouden moeten veranderen wanneer we de verdeling veranderen. In dit artikel leiden we een strategie af voor het voorspellen van het ene verlies uit het andere en passen we deze toe om te voorspellen over verschillende voorafgaande trainingsdatasets en van voorafgaande trainingsgegevens naar gegevens voor taakuitvoering. Onze voorspellingen extrapoleren zelfs goed tot 20x het grootste FLOP-budget dat is gebruikt om de curven te passen. Meer specifiek vinden we dat er eenvoudige verschoven machtsverhoudingen zijn tussen (1) de trainingsverliezen van twee modellen getraind op twee afzonderlijke datasets wanneer de modellen worden gekoppeld door trainingsberekening (train-to-train), (2) het trainingsverlies en het testverlies op elke taakuitvoeringsverdeling voor een enkel model (train-to-test), en (3) de testverliezen van twee modellen getraind op twee afzonderlijke trainingsdatasets (test-to-test). De resultaten gelden voor voorafgaande trainingsdatasets die aanzienlijk verschillen (sommige zijn volledig code en andere hebben helemaal geen code) en voor een verscheidenheid aan taken voor taakuitvoering. Tot slot vinden we dat in sommige situaties deze verschoven machtsverhoudingen nauwkeurigere voorspellingen kunnen opleveren dan het extrapoleren van schaalwetten voor enkele datasets.

English

While scaling laws provide a reliable methodology for predicting train loss across compute scales for a single data distribution, less is known about how these predictions should change as we change the distribution. In this paper, we derive a strategy for predicting one loss from another and apply it to predict across different pre-training datasets and from pre-training data to downstream task data. Our predictions extrapolate well even at 20x the largest FLOP budget used to fit the curves. More precisely, we find that there are simple shifted power law relationships between (1) the train losses of two models trained on two separate datasets when the models are paired by training compute (train-to-train), (2) the train loss and the test loss on any downstream distribution for a single model (train-to-test), and (3) the test losses of two models trained on two separate train datasets (test-to-test). The results hold up for pre-training datasets that differ substantially (some are entirely code and others have no code at all) and across a variety of downstream tasks. Finally, we find that in some settings these shifted power law relationships can yield more accurate predictions than extrapolating single-dataset scaling laws.

Voorspelling van verlies-tot-verlies: Schaalwetten voor alle datasets

Loss-to-Loss Prediction: Scaling Laws for All Datasets

Samenvatting

Summary

Support