증류 스케일링 법칙
Distillation Scaling Laws
February 12, 2025
저자: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb
cs.AI
초록
우리는 학생과 교사 간의 컴퓨트 예산 및 할당을 기반으로 증류된 모델 성능을 추정하는 증류 스케일링 법칙을 제공합니다. 우리의 연구 결과는 대규모 증류 사용과 관련된 위험을 줄입니다. 이제 교사와 학생 모델 모두를 위한 컴퓨트 할당은 학생 성능을 극대화하기 위해 수행될 수 있습니다. 우리는 교사가 존재하는 경우 또는 교사가 훈련이 필요한 경우에 대한 컴퓨트 최적의 증류 레시피를 제공합니다. 많은 학생을 증류해야 하는 경우나 이미 교사가 있는 경우, 증류는 학생 크기와 함께 예측 가능하게 증가하는 컴퓨트 수준까지 지도 사전 훈련을 능가합니다. 하나의 학생을 증류하고 교사도 훈련이 필요한 경우, 지도 학습 대신 수행해야 합니다. 더불어, 증류에 대한 우리의 대규모 연구를 통해 제공된 통찰력은 증류에 대한 우리의 이해를 높이고 실험 설계에 정보를 제공합니다.
English
We provide a distillation scaling law that estimates distilled model
performance based on a compute budget and its allocation between the student
and teacher. Our findings reduce the risks associated with using distillation
at scale; compute allocation for both the teacher and student models can now be
done to maximize student performance. We provide compute optimal distillation
recipes for when 1) a teacher exists, or 2) a teacher needs training. If many
students are to be distilled, or a teacher already exists, distillation
outperforms supervised pretraining until a compute level which grows
predictably with student size. If one student is to be distilled and a teacher
also needs training, supervised learning should be done instead. Additionally,
we provide insights across our large scale study of distillation, which
increase our understanding of distillation and inform experimental design.Summary
AI-Generated Summary