MiniPLM: Wissensverdichtung für das Vor-Training von Sprachmodellen

papers.abstract

Wissensvermittlung (KD) wird weit verbreitet eingesetzt, um kleine, leistungsstarke Sprachmodelle (LMs) zu trainieren, indem große Lehrer-LMs verwendet werden. Während KD beim Feintuning effektiv ist, sieht es sich während des Pre-Trainings mit Herausforderungen in Effizienz, Flexibilität und Effektivität konfrontiert. Bestehende Methoden verursachen entweder hohe Rechenkosten aufgrund von Online-Lehrer-Inferenz, erfordern Tokenisierungsübereinstimmung zwischen Lehrer- und Schüler-LMs oder riskieren den Verlust der Schwierigkeit und Vielfalt der vom Lehrer generierten Trainingsdaten. Um diese Probleme anzugehen, schlagen wir MiniPLM vor, ein KD-Framework für das Pre-Training von LMs, das die Verteilung der Trainingsdaten durch das Wissen des Lehrers verfeinert. Für Effizienz führt MiniPLM Offline-Lehrer-LM-Inferenz durch, was KD für mehrere Schüler-LMs ohne zusätzliche Trainingszeitkosten ermöglicht. Für Flexibilität arbeitet MiniPLM ausschließlich auf dem Trainingskorpus und ermöglicht KD über Modellfamilien hinweg. Für Effektivität nutzt MiniPLM die Unterschiede zwischen großen und kleinen LMs, um die Schwierigkeit und Vielfalt der Trainingsdaten zu erhöhen, was den Schüler-LMs hilft, vielseitiges und anspruchsvolles Wissen zu erlangen. Umfangreiche Experimente zeigen, dass MiniPLM die Leistung der Schüler-LMs in 9 weit verbreiteten nachgelagerten Aufgaben steigert, die Fähigkeiten des Sprachmodellierens verbessert und die Rechenleistung beim Pre-Training reduziert. Der Nutzen von MiniPLM erstreckt sich auf große Pre-Training-Skalen, wie durch die Extrapolation der Skalierungskurven belegt wird. Weitere Analysen zeigen, dass MiniPLM KD über Modellfamilien hinweg unterstützt und die Nutzung von Pre-Training-Daten verbessert. Unser Modell, Code und Daten sind unter https://github.com/thu-coai/MiniPLM verfügbar.

English

Knowledge distillation (KD) is widely used to train small, high-performing student language models (LMs) using large teacher LMs. While effective in fine-tuning, KD during pre-training faces challenges in efficiency, flexibility, and effectiveness. Existing methods either incur high computational costs due to online teacher inference, require tokenization matching between teacher and student LMs, or risk losing the difficulty and diversity of the teacher-generated training data. To address these issues, we propose MiniPLM, a KD framework for pre-training LMs by refining the training data distribution with the teacher's knowledge. For efficiency, MiniPLM performs offline teacher LM inference, allowing KD for multiple student LMs without adding training-time costs. For flexibility, MiniPLM operates solely on the training corpus, enabling KD across model families. For effectiveness, MiniPLM leverages the differences between large and small LMs to enhance the difficulty and diversity of the training data, helping student LMs acquire versatile and sophisticated knowledge. Extensive experiments demonstrate that MiniPLM boosts the student LMs' performance on 9 widely used downstream tasks, improves the language modeling capabilities, and reduces pre-training computation. The benefit of MiniPLM extends to large pre-training scales, evidenced by the extrapolation of the scaling curves. Further analysis reveals that MiniPLM supports KD across model families and enhances the utilization of pre-training data. Our model, code, and data are available at https://github.com/thu-coai/MiniPLM.

MiniPLM: Wissensverdichtung für das Vor-Training von Sprachmodellen

MiniPLM: Knowledge Distillation for Pre-Training Language Models

papers.abstract

Support