MiniPLM : Distillation de Connaissances pour la Pré-Entraînement des Modèles de Langage

MiniPLM: Knowledge Distillation for Pre-Training Language Models

October 22, 2024
Auteurs: Yuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang
cs.AI

Résumé

La distillation des connaissances (KD) est largement utilisée pour entraîner de petits modèles de langage (LM) performants en utilisant de grands modèles de langage enseignants. Bien qu'efficace pour le fine-tuning, la KD lors de la pré-formation rencontre des défis en termes d'efficacité, de flexibilité et d'efficacité. Les méthodes existantes entraînent soit des coûts computationnels élevés en raison de l'inférence en ligne du modèle enseignant, nécessitent une correspondance de tokenisation entre les modèles enseignant et étudiant, ou risquent de perdre la difficulté et la diversité des données d'entraînement générées par l'enseignant. Pour résoudre ces problèmes, nous proposons MiniPLM, un cadre de KD pour la pré-formation des modèles de langage en affinant la distribution des données d'entraînement avec les connaissances de l'enseignant. Pour l'efficacité, MiniPLM effectue une inférence hors ligne du modèle enseignant, permettant la KD pour de multiples modèles de langage étudiants sans ajouter de coûts de temps d'entraînement. Pour la flexibilité, MiniPLM fonctionne uniquement sur le corpus d'entraînement, permettant la KD entre les familles de modèles. Pour l'efficacité, MiniPLM tire parti des différences entre les grands et petits modèles de langage pour améliorer la difficulté et la diversité des données d'entraînement, aidant les modèles de langage étudiants à acquérir des connaissances polyvalentes et sophistiquées. Des expériences approfondies démontrent que MiniPLM améliore les performances des modèles de langage étudiants sur 9 tâches en aval largement utilisées, améliore les capacités de modélisation de langage et réduit le calcul de pré-formation. Les avantages de MiniPLM s'étendent aux grandes échelles de pré-formation, comme en témoigne l'extrapolation des courbes de mise à l'échelle. Une analyse supplémentaire révèle que MiniPLM prend en charge la KD entre les familles de modèles et améliore l'utilisation des données de pré-formation. Notre modèle, code et données sont disponibles sur https://github.com/thu-coai/MiniPLM.
English
Knowledge distillation (KD) is widely used to train small, high-performing student language models (LMs) using large teacher LMs. While effective in fine-tuning, KD during pre-training faces challenges in efficiency, flexibility, and effectiveness. Existing methods either incur high computational costs due to online teacher inference, require tokenization matching between teacher and student LMs, or risk losing the difficulty and diversity of the teacher-generated training data. To address these issues, we propose MiniPLM, a KD framework for pre-training LMs by refining the training data distribution with the teacher's knowledge. For efficiency, MiniPLM performs offline teacher LM inference, allowing KD for multiple student LMs without adding training-time costs. For flexibility, MiniPLM operates solely on the training corpus, enabling KD across model families. For effectiveness, MiniPLM leverages the differences between large and small LMs to enhance the difficulty and diversity of the training data, helping student LMs acquire versatile and sophisticated knowledge. Extensive experiments demonstrate that MiniPLM boosts the student LMs' performance on 9 widely used downstream tasks, improves the language modeling capabilities, and reduces pre-training computation. The benefit of MiniPLM extends to large pre-training scales, evidenced by the extrapolation of the scaling curves. Further analysis reveals that MiniPLM supports KD across model families and enhances the utilization of pre-training data. Our model, code, and data are available at https://github.com/thu-coai/MiniPLM.

Summary

AI-Generated Summary

PDF122November 16, 2024