Vorab-Training durch Destillation für große Sprachmodelle: Eine Erkundung des Designraums
Pre-training Distillation for Large Language Models: A Design Space Exploration
October 21, 2024
Autoren: Hao Peng, Xin Lv, Yushi Bai, Zijun Yao, Jiajie Zhang, Lei Hou, Juanzi Li
cs.AI
Zusammenfassung
Wissensvermittlung (KD) zielt darauf ab, Wissen von einem großen Lehrmodell auf ein kleineres Schülermodell zu übertragen. Frühere Arbeiten zur Anwendung von KD im Bereich großer Sprachmodelle (LLMs) konzentrierten sich in der Regel auf die Post-Training-Phase, in der das Schüler-LLM direkt aus Anweisungen und entsprechenden Antworten lernt, die vom Lehrmodell generiert wurden. In diesem Paper erweitern wir KD auf die Pre-Training-Phase von LLMs, die als Pre-Training-Destillation (PD) bezeichnet wird. Wir führen zunächst ein Vorversuch durch, bei dem GLM-4-9B als Lehr-LLM verwendet wird, um ein 1,9B-Parameter-Schüler-LLM zu destillieren, um die Wirksamkeit von PD zu validieren. Unter Berücksichtigung der Schlüsselfaktoren der Destillation erkunden wir systematisch den Designraum der Pre-Training-Destillation in vier Aspekten: Logits-Verarbeitung, Verlustauswahl, Skalierungsgesetz und Offline- oder Online-Logits. Wir führen umfangreiche Experimente durch, um den Designraum der Pre-Training-Destillation zu erkunden und bessere Konfigurationen sowie interessante Schlussfolgerungen zu finden, wie zum Beispiel dass größere Schüler-LLMs im Allgemeinen stärker von der Pre-Training-Destillation profitieren, während ein größeres Lehr-LLM nicht zwangsläufig bessere Ergebnisse garantiert. Wir hoffen, dass unsere Erkundung des Designraums zukünftige Praktiken in der Pre-Training-Destillation informieren wird.
English
Knowledge distillation (KD) aims to transfer knowledge from a large teacher
model to a smaller student model. Previous work applying KD in the field of
large language models (LLMs) typically focused on the post-training phase,
where the student LLM learns directly from instructions and corresponding
responses generated by the teacher model. In this paper, we extend KD to the
pre-training phase of LLMs, named pre-training distillation (PD). We first
conduct a preliminary experiment using GLM-4-9B as the teacher LLM to distill a
1.9B parameter student LLM, validating the effectiveness of PD. Considering the
key impact factors of distillation, we systematically explore the design space
of pre-training distillation across four aspects: logits processing, loss
selection, scaling law, and offline or online logits. We conduct extensive
experiments to explore the design space of pre-training distillation and find
better configurations and interesting conclusions, such as larger student LLMs
generally benefiting more from pre-training distillation, while a larger
teacher LLM does not necessarily guarantee better results. We hope our
exploration of the design space will inform future practices in pre-training
distillation.Summary
AI-Generated Summary