TAID: Tijdelijk Adaptieve Geïnterpoleerde Distillatie voor Efficiënte Kennisoverdracht in Taalmodellen

TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

January 28, 2025
Auteurs: Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
cs.AI

Samenvatting

Causale taalmodellen hebben opmerkelijke capaciteiten aangetoond, maar hun omvang vormt aanzienlijke uitdagingen voor implementatie in omgevingen met beperkte middelen. Kennisdistillatie, een veelgebruikte techniek voor het overdragen van kennis van een groot lerend model naar een klein studentenmodel, biedt een veelbelovende benadering voor modelcompressie. Een belangrijk resterend probleem ligt in de grote verschillen tussen leraren- en studentenmodellen, namelijk het aanzienlijke capaciteitsverschil, modusgemiddelden en modusinstorting, die obstakels vormen tijdens de distillatie. Om deze problemen aan te pakken, introduceren we Temporeel Adaptieve Geïnterpoleerde Distillatie (TAID), een nieuw kennisdistillatiebenadering die dynamisch studenten- en lerarendistributies interpoleert via een adaptieve tussenliggende distributie, geleidelijk verschuivend van de initiële distributie van de student naar de distributie van de leraar. We bieden een theoretische analyse die de mogelijkheid van TAID aantoont om modusinstorting te voorkomen en tonen empirisch de effectiviteit ervan aan bij het aanpakken van het capaciteitsverschil terwijl modusgemiddelden en modusinstorting in balans worden gehouden. Onze uitgebreide experimenten tonen de superieure prestaties van TAID aan bij verschillende modelgroottes en architecturen in zowel instructie-afstemmings- als vooraf trainingscenario's. Bovendien laten we de praktische impact van TAID zien door twee toonaangevende compacte basismodellen te ontwikkelen: TAID-LLM-1.5B voor taaltaken en TAID-VLM-2B voor visie-taaltaken. Deze resultaten tonen de effectiviteit van TAID aan bij het creëren van hoogwaardige en efficiënte modellen, waardoor de ontwikkeling van meer toegankelijke AI-technologieën wordt bevorderd.
English
Causal language models have demonstrated remarkable capabilities, but their size poses significant challenges for deployment in resource-constrained environments. Knowledge distillation, a widely-used technique for transferring knowledge from a large teacher model to a small student model, presents a promising approach for model compression. A significant remaining issue lies in the major differences between teacher and student models, namely the substantial capacity gap, mode averaging, and mode collapse, which pose barriers during distillation. To address these issues, we introduce Temporally Adaptive Interpolated Distillation (TAID), a novel knowledge distillation approach that dynamically interpolates student and teacher distributions through an adaptive intermediate distribution, gradually shifting from the student's initial distribution towards the teacher's distribution. We provide a theoretical analysis demonstrating TAID's ability to prevent mode collapse and empirically show its effectiveness in addressing the capacity gap while balancing mode averaging and mode collapse. Our comprehensive experiments demonstrate TAID's superior performance across various model sizes and architectures in both instruction tuning and pre-training scenarios. Furthermore, we showcase TAID's practical impact by developing two state-of-the-art compact foundation models: TAID-LLM-1.5B for language tasks and TAID-VLM-2B for vision-language tasks. These results demonstrate TAID's effectiveness in creating high-performing and efficient models, advancing the development of more accessible AI technologies.

Summary

AI-Generated Summary

PDF42January 30, 2025