Distillation de pré-entraînement pour les grands modèles de langage : une exploration de l'espace de conception

Pre-training Distillation for Large Language Models: A Design Space Exploration

October 21, 2024
Auteurs: Hao Peng, Xin Lv, Yushi Bai, Zijun Yao, Jiajie Zhang, Lei Hou, Juanzi Li
cs.AI

Résumé

La distillation des connaissances (KD) vise à transférer les connaissances d'un grand modèle enseignant à un modèle étudiant plus petit. Les travaux précédents appliquant la KD dans le domaine des grands modèles de langage (LLM) se sont généralement concentrés sur la phase post-entraînement, où le LLM étudiant apprend directement à partir des instructions et des réponses correspondantes générées par le modèle enseignant. Dans cet article, nous étendons la KD à la phase de pré-entraînement des LLM, nommée distillation de pré-entraînement (PD). Nous menons d'abord une expérience préliminaire en utilisant GLM-4-9B comme modèle enseignant pour distiller un LLM étudiant de 1,9 milliard de paramètres, validant ainsi l'efficacité de la PD. En tenant compte des facteurs d'impact clés de la distillation, nous explorons systématiquement l'espace de conception de la distillation de pré-entraînement à travers quatre aspects : le traitement des logits, la sélection de la perte, la loi d'échelle, et les logits hors ligne ou en ligne. Nous menons des expériences approfondies pour explorer l'espace de conception de la distillation de pré-entraînement et trouvons de meilleures configurations et des conclusions intéressantes, telles que des LLM étudiants plus grands bénéficiant généralement davantage de la distillation de pré-entraînement, tandis qu'un LLM enseignant plus grand ne garantit pas nécessairement de meilleurs résultats. Nous espérons que notre exploration de l'espace de conception éclairera les pratiques futures en matière de distillation de pré-entraînement.
English
Knowledge distillation (KD) aims to transfer knowledge from a large teacher model to a smaller student model. Previous work applying KD in the field of large language models (LLMs) typically focused on the post-training phase, where the student LLM learns directly from instructions and corresponding responses generated by the teacher model. In this paper, we extend KD to the pre-training phase of LLMs, named pre-training distillation (PD). We first conduct a preliminary experiment using GLM-4-9B as the teacher LLM to distill a 1.9B parameter student LLM, validating the effectiveness of PD. Considering the key impact factors of distillation, we systematically explore the design space of pre-training distillation across four aspects: logits processing, loss selection, scaling law, and offline or online logits. We conduct extensive experiments to explore the design space of pre-training distillation and find better configurations and interesting conclusions, such as larger student LLMs generally benefiting more from pre-training distillation, while a larger teacher LLM does not necessarily guarantee better results. We hope our exploration of the design space will inform future practices in pre-training distillation.

Summary

AI-Generated Summary

PDF152November 16, 2024