Over-Ge-Tokeniseerde Transformer: Woordenschat is doorgaans het schalen waard.
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling
January 28, 2025
Auteurs: Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou
cs.AI
Samenvatting
Tokenisatie is een fundamenteel onderdeel van grote taalmodellen (LLM's), maar de invloed ervan op model schaalbaarheid en prestaties is nog niet volledig onderzocht. In dit artikel introduceren we Over-Getokeniseerde Transformers, een nieuw raamwerk dat de invoer- en uitvoervocabulaires ontkoppelt om de prestaties van taalmodellering te verbeteren. Specifiek schalen we de invoervocabulaires op om gebruik te maken van multi-grame tokens. Via uitgebreide experimenten ontdekken we een log-lineaire relatie tussen de grootte van het invoervocabulaire en trainingsverlies, waarbij wordt aangetoond dat grotere invoervocabulaires consequent de modelprestaties verbeteren, ongeacht de modelgrootte. Door gebruik te maken van een groot invoervocabulaire bereiken we prestaties die vergelijkbaar zijn met verdubbelde baselines zonder extra kosten. Onze bevindingen benadrukken het belang van tokenisatie in schaalwetten en bieden praktische inzichten voor het ontwerpen van tokenizers, waarmee de weg wordt vrijgemaakt voor efficiëntere en krachtigere LLM's.
English
Tokenization is a fundamental component of large language models (LLMs), yet
its influence on model scaling and performance is not fully explored. In this
paper, we introduce Over-Tokenized Transformers, a novel framework that
decouples input and output vocabularies to improve language modeling
performance. Specifically, our approach scales up input vocabularies to
leverage multi-gram tokens. Through extensive experiments, we uncover a
log-linear relationship between input vocabulary size and training loss,
demonstrating that larger input vocabularies consistently enhance model
performance, regardless of model size. Using a large input vocabulary, we
achieve performance comparable to double-sized baselines with no additional
cost. Our findings highlight the importance of tokenization in scaling laws and
provide practical insight for tokenizer design, paving the way for more
efficient and powerful LLMs.Summary
AI-Generated Summary