Verlust-zu-Verlust-Vorhersage: Skalierungsgesetze für alle Datensätze
Loss-to-Loss Prediction: Scaling Laws for All Datasets
November 19, 2024
Autoren: David Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade
cs.AI
Zusammenfassung
Während Skalierungsgesetze eine zuverlässige Methodik für die Vorhersage von Trainingsverlusten über Rechenskalen für eine einzelne Datenverteilung bieten, ist weniger darüber bekannt, wie sich diese Vorhersagen ändern sollten, wenn wir die Verteilung ändern. In diesem Paper leiten wir eine Strategie zur Vorhersage eines Verlusts aus einem anderen ab und wenden sie an, um Vorhersagen über verschiedene Vortrainingsdatensätze und von Vortrainingsdaten auf Daten für nachgelagerte Aufgaben zu treffen. Unsere Vorhersagen extrapolieren sogar gut bei 20-fachem des größten FLOP-Budgets, das verwendet wurde, um die Kurven anzupassen. Genauer gesagt finden wir heraus, dass es einfache verschobene Potenzgesetzbeziehungen gibt zwischen (1) den Trainingsverlusten von zwei Modellen, die auf zwei separaten Datensätzen trainiert wurden, wenn die Modelle nach Trainingsrechenleistung gepaart sind (Train-to-Train), (2) dem Trainingsverlust und dem Testverlust auf einer beliebigen nachgelagerten Verteilung für ein einzelnes Modell (Train-to-Test) und (3) den Testverlusten von zwei Modellen, die auf zwei separaten Trainingsdatensätzen trainiert wurden (Test-to-Test). Die Ergebnisse halten auch für Vortrainingsdatensätze, die sich erheblich unterscheiden (manche bestehen ausschließlich aus Code und andere enthalten überhaupt keinen Code) und über eine Vielzahl von nachgelagerten Aufgaben hinweg. Schließlich stellen wir fest, dass in einigen Situationen diese verschobenen Potenzgesetzbeziehungen genauere Vorhersagen liefern können als die Extrapolation von Skalierungsgesetzen für einzelne Datensätze.
English
While scaling laws provide a reliable methodology for predicting train loss
across compute scales for a single data distribution, less is known about how
these predictions should change as we change the distribution. In this paper,
we derive a strategy for predicting one loss from another and apply it to
predict across different pre-training datasets and from pre-training data to
downstream task data. Our predictions extrapolate well even at 20x the largest
FLOP budget used to fit the curves. More precisely, we find that there are
simple shifted power law relationships between (1) the train losses of two
models trained on two separate datasets when the models are paired by training
compute (train-to-train), (2) the train loss and the test loss on any
downstream distribution for a single model (train-to-test), and (3) the test
losses of two models trained on two separate train datasets (test-to-test). The
results hold up for pre-training datasets that differ substantially (some are
entirely code and others have no code at all) and across a variety of
downstream tasks. Finally, we find that in some settings these shifted power
law relationships can yield more accurate predictions than extrapolating
single-dataset scaling laws.Summary
AI-Generated Summary