Stabilire le leggi di scala delle attività tramite scale di modelli efficienti dal punto di vista computazionale.

Abstract

Sviluppiamo leggi di scalabilità delle attività e modelli di scale per prevedere le prestazioni individuali delle modelli linguistici preaddestrati (LMs) nell'ambiente di sovraaddestramento. Le leggi di potenza standard per la perdita di modellazione del linguaggio non possono modellare con precisione le prestazioni delle attività. Pertanto, sfruttiamo un approccio predittivo a due fasi: prima utilizziamo il modello e la dimensione dei dati per prevedere una perdita specifica dell'attività, e poi utilizziamo questa perdita dell'attività per prevedere le prestazioni dell'attività. Addestriamo un insieme di modelli "scale" su piccola scala, raccogliamo punti dati per adattare le funzioni parametriche dei due passaggi predittivi e facciamo previsioni per due modelli target: un modello 7B addestrato a 4T token e un modello 13B addestrato a 5T token. Addestrare i modelli scale costa solo l'1% del calcolo utilizzato per i modelli target. Su quattro attività a scelta multipla scritte in formato di classificazione graduata, possiamo prevedere l'accuratezza di entrambi i modelli target entro 2 punti di errore assoluto. Abbiamo un errore di previsione più elevato su altre quattro attività (errore assoluto medio 6.9) e scopriamo che spesso si tratta di attività con una maggiore varianza nelle metriche dell'attività. Troviamo anche che utilizzare meno calcolo per addestrare meno modelli scale tende a deteriorare le previsioni. Infine, dimostriamo empiricamente che le nostre scelte progettuali e l'approccio a due fasi portano a prestazioni superiori nell'istituzione di leggi di scalabilità.

English

We develop task scaling laws and model ladders to predict the individual task performance of pretrained language models (LMs) in the overtrained setting. Standard power laws for language modeling loss cannot accurately model task performance. Therefore, we leverage a two-step prediction approach: first use model and data size to predict a task-specific loss, and then use this task loss to predict task performance. We train a set of small-scale "ladder" models, collect data points to fit the parameterized functions of the two prediction steps, and make predictions for two target models: a 7B model trained to 4T tokens and a 13B model trained to 5T tokens. Training the ladder models only costs 1% of the compute used for the target models. On four multiple-choice tasks written in ranked classification format, we can predict the accuracy of both target models within 2 points of absolute error. We have higher prediction error on four other tasks (average absolute error 6.9) and find that these are often tasks with higher variance in task metrics. We also find that using less compute to train fewer ladder models tends to deteriorate predictions. Finally, we empirically show that our design choices and the two-step approach lead to superior performance in establishing scaling laws.

Stabilire le leggi di scala delle attività tramite scale di modelli efficienti dal punto di vista computazionale.

Establishing Task Scaling Laws via Compute-Efficient Model Ladders

Abstract

Support