Voorafgaande training door verdichting voor grote taalmodellen: Een verkenning van het ontwerpruimte

Pre-training Distillation for Large Language Models: A Design Space Exploration

October 21, 2024
Auteurs: Hao Peng, Xin Lv, Yushi Bai, Zijun Yao, Jiajie Zhang, Lei Hou, Juanzi Li
cs.AI

Samenvatting

Kennisdistantie (KD) heeft als doel kennis over te dragen van een grote docentmodel naar een kleiner studentmodel. Eerdere onderzoeken die KD toepassen in het veld van grote taalmodellen (LLM's) richtten zich typisch op de post-trainingfase, waar de student LLM rechtstreeks leert van instructies en bijbehorende reacties gegenereerd door het docentmodel. In dit artikel breiden we KD uit naar de pre-trainingfase van LLM's, genaamd pre-training distillatie (PD). We voeren eerst een voorlopig experiment uit met GLM-4-9B als het docent LLM om een student LLM met 1.9B parameters te distilleren, waarbij we de effectiviteit van PD valideren. Gezien de belangrijkste impactfactoren van distillatie, verkennen we systematisch de ontwerpruimte van pre-training distillatie over vier aspecten: logitverwerking, verliesselectie, schalingswet, en offline of online log-its. We voeren uitgebreide experimenten uit om de ontwerpruimte van pre-training distillatie te verkennen en betere configuraties en interessante conclusies te vinden, zoals dat grotere student LLM's over het algemeen meer profiteren van pre-training distillatie, terwijl een groter docent LLM niet noodzakelijkerwijs betere resultaten garandeert. We hopen dat onze verkenning van de ontwerpruimte toekomstige praktijken in pre-training distillatie zal informeren.
English
Knowledge distillation (KD) aims to transfer knowledge from a large teacher model to a smaller student model. Previous work applying KD in the field of large language models (LLMs) typically focused on the post-training phase, where the student LLM learns directly from instructions and corresponding responses generated by the teacher model. In this paper, we extend KD to the pre-training phase of LLMs, named pre-training distillation (PD). We first conduct a preliminary experiment using GLM-4-9B as the teacher LLM to distill a 1.9B parameter student LLM, validating the effectiveness of PD. Considering the key impact factors of distillation, we systematically explore the design space of pre-training distillation across four aspects: logits processing, loss selection, scaling law, and offline or online logits. We conduct extensive experiments to explore the design space of pre-training distillation and find better configurations and interesting conclusions, such as larger student LLMs generally benefiting more from pre-training distillation, while a larger teacher LLM does not necessarily guarantee better results. We hope our exploration of the design space will inform future practices in pre-training distillation.

Summary

AI-Generated Summary

PDF152November 16, 2024