Stabilire le leggi di scala delle attività tramite scale di modelli efficienti dal punto di vista computazionale.
Establishing Task Scaling Laws via Compute-Efficient Model Ladders
December 5, 2024
Autori: Akshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord, Ananya Harsh Jha, Luca Soldaini, Noah A. Smith, Dirk Groeneveld, Pang Wei Koh, Jesse Dodge, Hannaneh Hajishirzi
cs.AI
Abstract
Sviluppiamo leggi di scalabilità delle attività e modelli di scale per prevedere le prestazioni individuali delle modelli linguistici preaddestrati (LMs) nell'ambiente di sovraaddestramento. Le leggi di potenza standard per la perdita di modellazione del linguaggio non possono modellare con precisione le prestazioni delle attività. Pertanto, sfruttiamo un approccio predittivo a due fasi: prima utilizziamo il modello e la dimensione dei dati per prevedere una perdita specifica dell'attività, e poi utilizziamo questa perdita dell'attività per prevedere le prestazioni dell'attività. Addestriamo un insieme di modelli "scale" su piccola scala, raccogliamo punti dati per adattare le funzioni parametriche dei due passaggi predittivi e facciamo previsioni per due modelli target: un modello 7B addestrato a 4T token e un modello 13B addestrato a 5T token. Addestrare i modelli scale costa solo l'1% del calcolo utilizzato per i modelli target. Su quattro attività a scelta multipla scritte in formato di classificazione graduata, possiamo prevedere l'accuratezza di entrambi i modelli target entro 2 punti di errore assoluto. Abbiamo un errore di previsione più elevato su altre quattro attività (errore assoluto medio 6.9) e scopriamo che spesso si tratta di attività con una maggiore varianza nelle metriche dell'attività. Troviamo anche che utilizzare meno calcolo per addestrare meno modelli scale tende a deteriorare le previsioni. Infine, dimostriamo empiricamente che le nostre scelte progettuali e l'approccio a due fasi portano a prestazioni superiori nell'istituzione di leggi di scalabilità.
English
We develop task scaling laws and model ladders to predict the individual task
performance of pretrained language models (LMs) in the overtrained setting.
Standard power laws for language modeling loss cannot accurately model task
performance. Therefore, we leverage a two-step prediction approach: first use
model and data size to predict a task-specific loss, and then use this task
loss to predict task performance. We train a set of small-scale "ladder"
models, collect data points to fit the parameterized functions of the two
prediction steps, and make predictions for two target models: a 7B model
trained to 4T tokens and a 13B model trained to 5T tokens. Training the ladder
models only costs 1% of the compute used for the target models. On four
multiple-choice tasks written in ranked classification format, we can predict
the accuracy of both target models within 2 points of absolute error. We have
higher prediction error on four other tasks (average absolute error 6.9) and
find that these are often tasks with higher variance in task metrics. We also
find that using less compute to train fewer ladder models tends to deteriorate
predictions. Finally, we empirically show that our design choices and the
two-step approach lead to superior performance in establishing scaling laws.Summary
AI-Generated Summary