TAID: Tijdelijk Adaptieve Geïnterpoleerde Distillatie voor Efficiënte Kennisoverdracht in Taalmodellen
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models
January 28, 2025
Auteurs: Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
cs.AI
Samenvatting
Causale taalmodellen hebben opmerkelijke capaciteiten aangetoond, maar hun omvang vormt aanzienlijke uitdagingen voor implementatie in omgevingen met beperkte middelen. Kennisdistillatie, een veelgebruikte techniek voor het overdragen van kennis van een groot lerend model naar een klein studentenmodel, biedt een veelbelovende benadering voor modelcompressie. Een belangrijk resterend probleem ligt in de grote verschillen tussen leraren- en studentenmodellen, namelijk het aanzienlijke capaciteitsverschil, modusgemiddelden en modusinstorting, die obstakels vormen tijdens de distillatie. Om deze problemen aan te pakken, introduceren we Temporeel Adaptieve Geïnterpoleerde Distillatie (TAID), een nieuw kennisdistillatiebenadering die dynamisch studenten- en lerarendistributies interpoleert via een adaptieve tussenliggende distributie, geleidelijk verschuivend van de initiële distributie van de student naar de distributie van de leraar. We bieden een theoretische analyse die de mogelijkheid van TAID aantoont om modusinstorting te voorkomen en tonen empirisch de effectiviteit ervan aan bij het aanpakken van het capaciteitsverschil terwijl modusgemiddelden en modusinstorting in balans worden gehouden. Onze uitgebreide experimenten tonen de superieure prestaties van TAID aan bij verschillende modelgroottes en architecturen in zowel instructie-afstemmings- als vooraf trainingscenario's. Bovendien laten we de praktische impact van TAID zien door twee toonaangevende compacte basismodellen te ontwikkelen: TAID-LLM-1.5B voor taaltaken en TAID-VLM-2B voor visie-taaltaken. Deze resultaten tonen de effectiviteit van TAID aan bij het creëren van hoogwaardige en efficiënte modellen, waardoor de ontwikkeling van meer toegankelijke AI-technologieën wordt bevorderd.
English
Causal language models have demonstrated remarkable capabilities, but their
size poses significant challenges for deployment in resource-constrained
environments. Knowledge distillation, a widely-used technique for transferring
knowledge from a large teacher model to a small student model, presents a
promising approach for model compression. A significant remaining issue lies in
the major differences between teacher and student models, namely the
substantial capacity gap, mode averaging, and mode collapse, which pose
barriers during distillation. To address these issues, we introduce
Temporally Adaptive Interpolated Distillation (TAID), a novel
knowledge distillation approach that dynamically interpolates student and
teacher distributions through an adaptive intermediate distribution, gradually
shifting from the student's initial distribution towards the teacher's
distribution. We provide a theoretical analysis demonstrating TAID's ability to
prevent mode collapse and empirically show its effectiveness in addressing the
capacity gap while balancing mode averaging and mode collapse. Our
comprehensive experiments demonstrate TAID's superior performance across
various model sizes and architectures in both instruction tuning and
pre-training scenarios. Furthermore, we showcase TAID's practical impact by
developing two state-of-the-art compact foundation models:
TAID-LLM-1.5B for language tasks and TAID-VLM-2B for
vision-language tasks. These results demonstrate TAID's effectiveness in
creating high-performing and efficient models, advancing the development of
more accessible AI technologies.Summary
AI-Generated Summary