MiniPLM: Wissensverdichtung für das Vor-Training von Sprachmodellen
MiniPLM: Knowledge Distillation for Pre-Training Language Models
October 22, 2024
Autoren: Yuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang
cs.AI
Zusammenfassung
Wissensvermittlung (KD) wird weit verbreitet eingesetzt, um kleine, leistungsstarke Sprachmodelle (LMs) zu trainieren, indem große Lehrer-LMs verwendet werden. Während KD beim Feintuning effektiv ist, sieht es sich während des Pre-Trainings mit Herausforderungen in Effizienz, Flexibilität und Effektivität konfrontiert. Bestehende Methoden verursachen entweder hohe Rechenkosten aufgrund von Online-Lehrer-Inferenz, erfordern Tokenisierungsübereinstimmung zwischen Lehrer- und Schüler-LMs oder riskieren den Verlust der Schwierigkeit und Vielfalt der vom Lehrer generierten Trainingsdaten. Um diese Probleme anzugehen, schlagen wir MiniPLM vor, ein KD-Framework für das Pre-Training von LMs, das die Verteilung der Trainingsdaten durch das Wissen des Lehrers verfeinert. Für Effizienz führt MiniPLM Offline-Lehrer-LM-Inferenz durch, was KD für mehrere Schüler-LMs ohne zusätzliche Trainingszeitkosten ermöglicht. Für Flexibilität arbeitet MiniPLM ausschließlich auf dem Trainingskorpus und ermöglicht KD über Modellfamilien hinweg. Für Effektivität nutzt MiniPLM die Unterschiede zwischen großen und kleinen LMs, um die Schwierigkeit und Vielfalt der Trainingsdaten zu erhöhen, was den Schüler-LMs hilft, vielseitiges und anspruchsvolles Wissen zu erlangen. Umfangreiche Experimente zeigen, dass MiniPLM die Leistung der Schüler-LMs in 9 weit verbreiteten nachgelagerten Aufgaben steigert, die Fähigkeiten des Sprachmodellierens verbessert und die Rechenleistung beim Pre-Training reduziert. Der Nutzen von MiniPLM erstreckt sich auf große Pre-Training-Skalen, wie durch die Extrapolation der Skalierungskurven belegt wird. Weitere Analysen zeigen, dass MiniPLM KD über Modellfamilien hinweg unterstützt und die Nutzung von Pre-Training-Daten verbessert. Unser Modell, Code und Daten sind unter https://github.com/thu-coai/MiniPLM verfügbar.
English
Knowledge distillation (KD) is widely used to train small, high-performing
student language models (LMs) using large teacher LMs. While effective in
fine-tuning, KD during pre-training faces challenges in efficiency,
flexibility, and effectiveness. Existing methods either incur high
computational costs due to online teacher inference, require tokenization
matching between teacher and student LMs, or risk losing the difficulty and
diversity of the teacher-generated training data. To address these issues, we
propose MiniPLM, a KD framework for pre-training LMs by refining the training
data distribution with the teacher's knowledge. For efficiency, MiniPLM
performs offline teacher LM inference, allowing KD for multiple student LMs
without adding training-time costs. For flexibility, MiniPLM operates solely on
the training corpus, enabling KD across model families. For effectiveness,
MiniPLM leverages the differences between large and small LMs to enhance the
difficulty and diversity of the training data, helping student LMs acquire
versatile and sophisticated knowledge. Extensive experiments demonstrate that
MiniPLM boosts the student LMs' performance on 9 widely used downstream tasks,
improves the language modeling capabilities, and reduces pre-training
computation. The benefit of MiniPLM extends to large pre-training scales,
evidenced by the extrapolation of the scaling curves. Further analysis reveals
that MiniPLM supports KD across model families and enhances the utilization of
pre-training data. Our model, code, and data are available at
https://github.com/thu-coai/MiniPLM.Summary
AI-Generated Summary