Überwindung von Vokabularinkongruenzen: Vokabular-agnostisches, lehrergestütztes Sprachmodellieren
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling
March 24, 2025
Autoren: Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
cs.AI
Zusammenfassung
Die Verwendung großer Lehrermodelle zur Anleitung des Trainings kleinerer Schülermodelle
hat sich zum vorherrschenden Paradigma für effizientes und effektives Lernen entwickelt.
Allerdings stellen Vokabularunterschiede zwischen Lehrer- und Schülersprachmodellen
erhebliche Herausforderungen in der Sprachmodellierung dar, was zu divergenten Token-Sequenzen
und Ausgabeverteilungen führt. Um diese Einschränkungen zu überwinden, schlagen wir
Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM) vor, einen neuartigen
Ansatz, der die durch Vokabularunterschiede verursachte Lücke durch zwei zentrale Methoden
überbrückt: (1) Token-level Lexical Alignment, das Token-Sequenzen über unterschiedliche
Vokabulare hinweg ausrichtet, und (2) Teacher Guided Loss, der den Verlust des Lehrermodells
nutzt, um das effektive Training des Schülermodells zu steuern. Wir demonstrieren die
Wirksamkeit dieses Ansatzes in der Sprachmodellierung mit einem 1B-Schülermodell unter
Verwendung verschiedener 7B-Lehrermodelle mit unterschiedlichen Vokabularen. Bemerkenswert
ist, dass VocAgnoLM mit Qwen2.5-Math-Instruct, einem Lehrermodell, das nur etwa 6 % seines
Vokabulars mit TinyLlama teilt, eine Leistungssteigerung von 46 % im Vergleich zu naivem
fortlaufendem Vortraining erzielt. Darüber hinaus zeigen wir, dass VocAgnoLM konsequent
von stärkeren Lehrermodellen profitiert und somit eine robuste Lösung für Vokabularunterschiede
in der Sprachmodellierung bietet.
English
Using large teacher models to guide the training of smaller student models
has become the prevailing paradigm for efficient and effective learning.
However, vocabulary mismatches between teacher and student language models pose
significant challenges in language modeling, resulting in divergent token
sequences and output distributions. To overcome these limitations, we propose
Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM), a novel
approach that bridges the gap caused by vocabulary mismatch through two key
methods: (1) Token-level Lexical Alignment, which aligns token sequences across
mismatched vocabularies, and (2) Teacher Guided Loss, which leverages the loss
of teacher model to guide effective student training. We demonstrate its
effectiveness in language modeling with 1B student model using various 7B
teacher models with different vocabularies. Notably, with
Qwen2.5-Math-Instruct, a teacher model sharing only about 6% of its vocabulary
with TinyLlama, VocAgnoLM achieves a 46% performance improvement compared to
naive continual pretraining. Furthermore, we demonstrate that VocAgnoLM
consistently benefits from stronger teacher models, providing a robust solution
to vocabulary mismatches in language modeling.Summary
AI-Generated Summary