ChatPaper.aiChatPaper

TAID: Zeitlich adaptives interpoliertes Distillationsverfahren für effiziente Wissensübertragung in Sprachmodellen

TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

January 28, 2025
Autoren: Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
cs.AI

Zusammenfassung

Kausale Sprachmodelle haben bemerkenswerte Fähigkeiten gezeigt, aber ihre Größe stellt bedeutende Herausforderungen für den Einsatz in ressourcenbeschränkten Umgebungen dar. Wissensdistillation, eine weit verbreitete Technik zur Übertragung von Wissen von einem großen Lehrmodell auf ein kleines Schülermodell, bietet einen vielversprechenden Ansatz zur Modellkompression. Ein wesentliches verbleibendes Problem liegt in den großen Unterschieden zwischen Lehrer- und Schülermodellen, nämlich der erhebliche Kapazitätsunterschied, Modusmittelung und Modus-Kollaps, die während der Distillation Hindernisse darstellen. Um diese Probleme anzugehen, führen wir die Temporally Adaptive Interpolated Distillation (TAID) ein, einen neuartigen Wissensdistillationsansatz, der Schüler- und Lehrer-Verteilungen dynamisch über eine adaptive Zwischenverteilung interpoliert, allmählich von der anfänglichen Verteilung des Schülers zur Verteilung des Lehrers übergeht. Wir bieten eine theoretische Analyse, die die Fähigkeit von TAID zeigt, Modus-Kollaps zu verhindern, und zeigen empirisch seine Wirksamkeit bei der Bewältigung des Kapazitätsunterschieds, während Modusmittelung und Modus-Kollaps ausgeglichen werden. Unsere umfassenden Experimente zeigen die überlegene Leistung von TAID bei verschiedenen Modellgrößen und Architekturen sowohl in Feinabstimmungs- als auch in Vor-Trainingsszenarien. Darüber hinaus präsentieren wir die praktische Auswirkung von TAID durch die Entwicklung von zwei hochmodernen kompakten Grundlagenmodellen: TAID-LLM-1.5B für Sprachaufgaben und TAID-VLM-2B für Bildsprachaufgaben. Diese Ergebnisse zeigen die Wirksamkeit von TAID bei der Schaffung leistungsstarker und effizienter Modelle, die die Entwicklung zugänglicherer KI-Technologien vorantreiben.
English
Causal language models have demonstrated remarkable capabilities, but their size poses significant challenges for deployment in resource-constrained environments. Knowledge distillation, a widely-used technique for transferring knowledge from a large teacher model to a small student model, presents a promising approach for model compression. A significant remaining issue lies in the major differences between teacher and student models, namely the substantial capacity gap, mode averaging, and mode collapse, which pose barriers during distillation. To address these issues, we introduce Temporally Adaptive Interpolated Distillation (TAID), a novel knowledge distillation approach that dynamically interpolates student and teacher distributions through an adaptive intermediate distribution, gradually shifting from the student's initial distribution towards the teacher's distribution. We provide a theoretical analysis demonstrating TAID's ability to prevent mode collapse and empirically show its effectiveness in addressing the capacity gap while balancing mode averaging and mode collapse. Our comprehensive experiments demonstrate TAID's superior performance across various model sizes and architectures in both instruction tuning and pre-training scenarios. Furthermore, we showcase TAID's practical impact by developing two state-of-the-art compact foundation models: TAID-LLM-1.5B for language tasks and TAID-VLM-2B for vision-language tasks. These results demonstrate TAID's effectiveness in creating high-performing and efficient models, advancing the development of more accessible AI technologies.

Summary

AI-Generated Summary

PDF65January 30, 2025