Superare il disallineamento del vocabolario: Modellazione del linguaggio guidata dall'insegnante agnostica al vocabolario
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling
March 24, 2025
Autori: Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
cs.AI
Abstract
L'utilizzo di modelli insegnanti di grandi dimensioni per guidare l'addestramento di modelli studenti più piccoli è diventato il paradigma prevalente per un apprendimento efficiente ed efficace. Tuttavia, le discrepanze nel vocabolario tra i modelli linguistici insegnante e studente rappresentano sfide significative nella modellazione del linguaggio, portando a sequenze di token e distribuzioni di output divergenti. Per superare queste limitazioni, proponiamo il Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM), un approccio innovativo che colma il divario causato dalla mancata corrispondenza del vocabolario attraverso due metodi chiave: (1) l'Allineamento Lessicale a Livello di Token, che allinea le sequenze di token tra vocabolari non corrispondenti, e (2) la Perdita Guidata dall'Insegnante, che sfrutta la perdita del modello insegnante per guidare un addestramento efficace dello studente. Dimostriamo la sua efficacia nella modellazione del linguaggio con un modello studente da 1B utilizzando vari modelli insegnanti da 7B con vocabolari diversi. In particolare, con Qwen2.5-Math-Instruct, un modello insegnante che condivide solo circa il 6% del suo vocabolario con TinyLlama, VocAgnoLM raggiunge un miglioramento delle prestazioni del 46% rispetto a un semplice preaddestramento continuo. Inoltre, dimostriamo che VocAgnoLM trae costantemente vantaggio da modelli insegnanti più potenti, fornendo una soluzione robusta alle discrepanze di vocabolario nella modellazione del linguaggio.
English
Using large teacher models to guide the training of smaller student models
has become the prevailing paradigm for efficient and effective learning.
However, vocabulary mismatches between teacher and student language models pose
significant challenges in language modeling, resulting in divergent token
sequences and output distributions. To overcome these limitations, we propose
Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM), a novel
approach that bridges the gap caused by vocabulary mismatch through two key
methods: (1) Token-level Lexical Alignment, which aligns token sequences across
mismatched vocabularies, and (2) Teacher Guided Loss, which leverages the loss
of teacher model to guide effective student training. We demonstrate its
effectiveness in language modeling with 1B student model using various 7B
teacher models with different vocabularies. Notably, with
Qwen2.5-Math-Instruct, a teacher model sharing only about 6% of its vocabulary
with TinyLlama, VocAgnoLM achieves a 46% performance improvement compared to
naive continual pretraining. Furthermore, we demonstrate that VocAgnoLM
consistently benefits from stronger teacher models, providing a robust solution
to vocabulary mismatches in language modeling.Summary
AI-Generated Summary