TAID: Zeitlich adaptives interpoliertes Distillationsverfahren für effiziente Wissensübertragung in Sprachmodellen
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models
January 28, 2025
Autoren: Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
cs.AI
Zusammenfassung
Kausale Sprachmodelle haben bemerkenswerte Fähigkeiten gezeigt, aber ihre Größe stellt bedeutende Herausforderungen für den Einsatz in ressourcenbeschränkten Umgebungen dar. Wissensdistillation, eine weit verbreitete Technik zur Übertragung von Wissen von einem großen Lehrmodell auf ein kleines Schülermodell, bietet einen vielversprechenden Ansatz zur Modellkompression. Ein wesentliches verbleibendes Problem liegt in den großen Unterschieden zwischen Lehrer- und Schülermodellen, nämlich der erhebliche Kapazitätsunterschied, Modusmittelung und Modus-Kollaps, die während der Distillation Hindernisse darstellen. Um diese Probleme anzugehen, führen wir die Temporally Adaptive Interpolated Distillation (TAID) ein, einen neuartigen Wissensdistillationsansatz, der Schüler- und Lehrer-Verteilungen dynamisch über eine adaptive Zwischenverteilung interpoliert, allmählich von der anfänglichen Verteilung des Schülers zur Verteilung des Lehrers übergeht. Wir bieten eine theoretische Analyse, die die Fähigkeit von TAID zeigt, Modus-Kollaps zu verhindern, und zeigen empirisch seine Wirksamkeit bei der Bewältigung des Kapazitätsunterschieds, während Modusmittelung und Modus-Kollaps ausgeglichen werden. Unsere umfassenden Experimente zeigen die überlegene Leistung von TAID bei verschiedenen Modellgrößen und Architekturen sowohl in Feinabstimmungs- als auch in Vor-Trainingsszenarien. Darüber hinaus präsentieren wir die praktische Auswirkung von TAID durch die Entwicklung von zwei hochmodernen kompakten Grundlagenmodellen: TAID-LLM-1.5B für Sprachaufgaben und TAID-VLM-2B für Bildsprachaufgaben. Diese Ergebnisse zeigen die Wirksamkeit von TAID bei der Schaffung leistungsstarker und effizienter Modelle, die die Entwicklung zugänglicherer KI-Technologien vorantreiben.
English
Causal language models have demonstrated remarkable capabilities, but their
size poses significant challenges for deployment in resource-constrained
environments. Knowledge distillation, a widely-used technique for transferring
knowledge from a large teacher model to a small student model, presents a
promising approach for model compression. A significant remaining issue lies in
the major differences between teacher and student models, namely the
substantial capacity gap, mode averaging, and mode collapse, which pose
barriers during distillation. To address these issues, we introduce
Temporally Adaptive Interpolated Distillation (TAID), a novel
knowledge distillation approach that dynamically interpolates student and
teacher distributions through an adaptive intermediate distribution, gradually
shifting from the student's initial distribution towards the teacher's
distribution. We provide a theoretical analysis demonstrating TAID's ability to
prevent mode collapse and empirically show its effectiveness in addressing the
capacity gap while balancing mode averaging and mode collapse. Our
comprehensive experiments demonstrate TAID's superior performance across
various model sizes and architectures in both instruction tuning and
pre-training scenarios. Furthermore, we showcase TAID's practical impact by
developing two state-of-the-art compact foundation models:
TAID-LLM-1.5B for language tasks and TAID-VLM-2B for
vision-language tasks. These results demonstrate TAID's effectiveness in
creating high-performing and efficient models, advancing the development of
more accessible AI technologies.Summary
AI-Generated Summary