ChatPaper.aiChatPaper

계산 효율적인 모델 사다리를 통해 작업 스케일링 법칙 수립하기

Establishing Task Scaling Laws via Compute-Efficient Model Ladders

December 5, 2024
저자: Akshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord, Ananya Harsh Jha, Luca Soldaini, Noah A. Smith, Dirk Groeneveld, Pang Wei Koh, Jesse Dodge, Hannaneh Hajishirzi
cs.AI

초록

우리는 작업 스케일링 법칙과 모델 사다리를 개발하여 사전 훈련된 언어 모델(LMs)의 개별 작업 성능을 초과 훈련 설정에서 예측합니다. 언어 모델링 손실에 대한 표준 거듭제곱 법칙은 작업 성능을 정확하게 모델링할 수 없습니다. 따라서 우리는 두 단계 예측 접근 방식을 활용합니다: 먼저 모델과 데이터 크기를 사용하여 작업별 손실을 예측하고, 그런 다음 이 작업 손실을 사용하여 작업 성능을 예측합니다. 우리는 소규모 "사다리" 모델 세트를 훈련시키고, 두 예측 단계의 매개변수화된 함수에 맞는 데이터 포인트를 수집하여 4T 토큰에 훈련된 7B 모델과 5T 토큰에 훈련된 13B 모델에 대한 예측을 수행합니다. 사다리 모델을 훈련하는 데 드는 비용은 대상 모델에 사용된 컴퓨팅의 1%에 불과합니다. 순위 분류 형식으로 작성된 네 가지 객관식 작업에서는 두 대상 모델의 정확도를 절대 오차 2점 이내로 예측할 수 있습니다. 다른 네 가지 작업에서는 더 높은 예측 오차가 나타나며(평균 절대 오차 6.9), 이러한 작업은 종종 작업 메트릭스의 분산이 더 높은 작업입니다. 더 적은 사다리 모델을 훈련시키기 위해 더 적은 컴퓨팅을 사용하는 것이 예측을 악화시키는 경향이 있다는 것을 발견했습니다. 마지막으로, 우리의 설계 선택과 두 단계 접근 방식이 스케일링 법칙을 수립하는 데 우수한 성능을 보이는 것을 경험적으로 입증합니다.
English
We develop task scaling laws and model ladders to predict the individual task performance of pretrained language models (LMs) in the overtrained setting. Standard power laws for language modeling loss cannot accurately model task performance. Therefore, we leverage a two-step prediction approach: first use model and data size to predict a task-specific loss, and then use this task loss to predict task performance. We train a set of small-scale "ladder" models, collect data points to fit the parameterized functions of the two prediction steps, and make predictions for two target models: a 7B model trained to 4T tokens and a 13B model trained to 5T tokens. Training the ladder models only costs 1% of the compute used for the target models. On four multiple-choice tasks written in ranked classification format, we can predict the accuracy of both target models within 2 points of absolute error. We have higher prediction error on four other tasks (average absolute error 6.9) and find that these are often tasks with higher variance in task metrics. We also find that using less compute to train fewer ladder models tends to deteriorate predictions. Finally, we empirically show that our design choices and the two-step approach lead to superior performance in establishing scaling laws.

Summary

AI-Generated Summary

PDF32December 7, 2024