ChatPaper.aiChatPaper

Überwindung von Vokabularinkongruenzen: Vokabular-agnostisches, lehrergestütztes Sprachmodellieren

Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling

March 24, 2025
Autoren: Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
cs.AI

Zusammenfassung

Die Verwendung großer Lehrermodelle zur Anleitung des Trainings kleinerer Schülermodelle hat sich zum vorherrschenden Paradigma für effizientes und effektives Lernen entwickelt. Allerdings stellen Vokabularunterschiede zwischen Lehrer- und Schülersprachmodellen erhebliche Herausforderungen in der Sprachmodellierung dar, was zu divergenten Token-Sequenzen und Ausgabeverteilungen führt. Um diese Einschränkungen zu überwinden, schlagen wir Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM) vor, einen neuartigen Ansatz, der die durch Vokabularunterschiede verursachte Lücke durch zwei zentrale Methoden überbrückt: (1) Token-level Lexical Alignment, das Token-Sequenzen über unterschiedliche Vokabulare hinweg ausrichtet, und (2) Teacher Guided Loss, der den Verlust des Lehrermodells nutzt, um das effektive Training des Schülermodells zu steuern. Wir demonstrieren die Wirksamkeit dieses Ansatzes in der Sprachmodellierung mit einem 1B-Schülermodell unter Verwendung verschiedener 7B-Lehrermodelle mit unterschiedlichen Vokabularen. Bemerkenswert ist, dass VocAgnoLM mit Qwen2.5-Math-Instruct, einem Lehrermodell, das nur etwa 6 % seines Vokabulars mit TinyLlama teilt, eine Leistungssteigerung von 46 % im Vergleich zu naivem fortlaufendem Vortraining erzielt. Darüber hinaus zeigen wir, dass VocAgnoLM konsequent von stärkeren Lehrermodellen profitiert und somit eine robuste Lösung für Vokabularunterschiede in der Sprachmodellierung bietet.
English
Using large teacher models to guide the training of smaller student models has become the prevailing paradigm for efficient and effective learning. However, vocabulary mismatches between teacher and student language models pose significant challenges in language modeling, resulting in divergent token sequences and output distributions. To overcome these limitations, we propose Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM), a novel approach that bridges the gap caused by vocabulary mismatch through two key methods: (1) Token-level Lexical Alignment, which aligns token sequences across mismatched vocabularies, and (2) Teacher Guided Loss, which leverages the loss of teacher model to guide effective student training. We demonstrate its effectiveness in language modeling with 1B student model using various 7B teacher models with different vocabularies. Notably, with Qwen2.5-Math-Instruct, a teacher model sharing only about 6% of its vocabulary with TinyLlama, VocAgnoLM achieves a 46% performance improvement compared to naive continual pretraining. Furthermore, we demonstrate that VocAgnoLM consistently benefits from stronger teacher models, providing a robust solution to vocabulary mismatches in language modeling.

Summary

AI-Generated Summary

PDF22March 26, 2025