Predizione da Perdita a Perdita: Leggi di Scala per Tutti i Dataset

Abstract

Mentre le leggi di scala forniscono una metodologia affidabile per prevedere la perdita di addestramento attraverso scale di calcolo per una singola distribuzione di dati, si sa meno su come queste previsioni dovrebbero cambiare man mano che cambiamo la distribuzione. In questo articolo, deriviamo una strategia per prevedere una perdita da un'altra e la applichiamo per prevedere attraverso diversi set di dati di pre-addestramento e dal dato di pre-addestramento ai dati del compito successivo. Le nostre previsioni si estendono bene anche a 20 volte il budget FLOP più grande utilizzato per adattare le curve. Più precisamente, scopriamo che ci sono semplici relazioni di legge di potenza traslate tra (1) le perdite di addestramento di due modelli addestrati su due set di dati separati quando i modelli sono accoppiati dal calcolo di addestramento (addestramento-addestramento), (2) la perdita di addestramento e la perdita di test su qualsiasi distribuzione successiva per un singolo modello (addestramento-test), e (3) le perdite di test di due modelli addestrati su due set di dati di addestramento separati (test-test). I risultati resistono per i set di dati di pre-addestramento che differiscono sostanzialmente (alcuni sono interamente codice e altri non hanno affatto codice) e attraverso una varietà di compiti successivi. Infine, scopriamo che in alcuni contesti queste relazioni di legge di potenza traslate possono fornire previsioni più accurate rispetto all'estrapolazione delle leggi di scala di singoli set di dati.

English

While scaling laws provide a reliable methodology for predicting train loss across compute scales for a single data distribution, less is known about how these predictions should change as we change the distribution. In this paper, we derive a strategy for predicting one loss from another and apply it to predict across different pre-training datasets and from pre-training data to downstream task data. Our predictions extrapolate well even at 20x the largest FLOP budget used to fit the curves. More precisely, we find that there are simple shifted power law relationships between (1) the train losses of two models trained on two separate datasets when the models are paired by training compute (train-to-train), (2) the train loss and the test loss on any downstream distribution for a single model (train-to-test), and (3) the test losses of two models trained on two separate train datasets (test-to-test). The results hold up for pre-training datasets that differ substantially (some are entirely code and others have no code at all) and across a variety of downstream tasks. Finally, we find that in some settings these shifted power law relationships can yield more accurate predictions than extrapolating single-dataset scaling laws.

Predizione da Perdita a Perdita: Leggi di Scala per Tutti i Dataset

Loss-to-Loss Prediction: Scaling Laws for All Datasets

Abstract

Support