Predizione da Perdita a Perdita: Leggi di Scala per Tutti i Dataset
Loss-to-Loss Prediction: Scaling Laws for All Datasets
November 19, 2024
Autori: David Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade
cs.AI
Abstract
Mentre le leggi di scala forniscono una metodologia affidabile per prevedere la perdita di addestramento attraverso scale di calcolo per una singola distribuzione di dati, si sa meno su come queste previsioni dovrebbero cambiare man mano che cambiamo la distribuzione. In questo articolo, deriviamo una strategia per prevedere una perdita da un'altra e la applichiamo per prevedere attraverso diversi set di dati di pre-addestramento e dal dato di pre-addestramento ai dati del compito successivo. Le nostre previsioni si estendono bene anche a 20 volte il budget FLOP più grande utilizzato per adattare le curve. Più precisamente, scopriamo che ci sono semplici relazioni di legge di potenza traslate tra (1) le perdite di addestramento di due modelli addestrati su due set di dati separati quando i modelli sono accoppiati dal calcolo di addestramento (addestramento-addestramento), (2) la perdita di addestramento e la perdita di test su qualsiasi distribuzione successiva per un singolo modello (addestramento-test), e (3) le perdite di test di due modelli addestrati su due set di dati di addestramento separati (test-test). I risultati resistono per i set di dati di pre-addestramento che differiscono sostanzialmente (alcuni sono interamente codice e altri non hanno affatto codice) e attraverso una varietà di compiti successivi. Infine, scopriamo che in alcuni contesti queste relazioni di legge di potenza traslate possono fornire previsioni più accurate rispetto all'estrapolazione delle leggi di scala di singoli set di dati.
English
While scaling laws provide a reliable methodology for predicting train loss
across compute scales for a single data distribution, less is known about how
these predictions should change as we change the distribution. In this paper,
we derive a strategy for predicting one loss from another and apply it to
predict across different pre-training datasets and from pre-training data to
downstream task data. Our predictions extrapolate well even at 20x the largest
FLOP budget used to fit the curves. More precisely, we find that there are
simple shifted power law relationships between (1) the train losses of two
models trained on two separate datasets when the models are paired by training
compute (train-to-train), (2) the train loss and the test loss on any
downstream distribution for a single model (train-to-test), and (3) the test
losses of two models trained on two separate train datasets (test-to-test). The
results hold up for pre-training datasets that differ substantially (some are
entirely code and others have no code at all) and across a variety of
downstream tasks. Finally, we find that in some settings these shifted power
law relationships can yield more accurate predictions than extrapolating
single-dataset scaling laws.Summary
AI-Generated Summary