Über-Tokenisierter Transformer: Die Vokabularskalierung ist in der Regel sinnvoll.
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling
January 28, 2025
Autoren: Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou
cs.AI
Zusammenfassung
Die Tokenisierung ist eine grundlegende Komponente großer Sprachmodelle (LLMs), doch ihr Einfluss auf die Skalierung und Leistung der Modelle ist noch nicht vollständig erforscht. In diesem Artikel stellen wir Over-Tokenized Transformers vor, ein neuartiges Framework, das die Eingabe- und Ausgabe-Vokabulare entkoppelt, um die Leistung des Sprachmodellierens zu verbessern. Speziell skaliert unser Ansatz die Eingabe-Vokabulare hoch, um Multi-Gramm-Token zu nutzen. Durch umfangreiche Experimente decken wir eine logarithmisch-lineare Beziehung zwischen der Größe des Eingabe-Vokabulars und dem Trainingsverlust auf, was zeigt, dass größere Eingabe-Vokabulare die Modellleistung unabhängig von der Modellgröße konsistent verbessern. Mit einem großen Eingabe-Vokabular erreichen wir eine vergleichbare Leistung wie doppelt so große Baselines ohne zusätzliche Kosten. Unsere Ergebnisse unterstreichen die Bedeutung der Tokenisierung in Skalierungsgesetzen und bieten praktische Einblicke für das Design von Tokenizern, um den Weg für effizientere und leistungsstärkere LLMs zu ebnen.
English
Tokenization is a fundamental component of large language models (LLMs), yet
its influence on model scaling and performance is not fully explored. In this
paper, we introduce Over-Tokenized Transformers, a novel framework that
decouples input and output vocabularies to improve language modeling
performance. Specifically, our approach scales up input vocabularies to
leverage multi-gram tokens. Through extensive experiments, we uncover a
log-linear relationship between input vocabulary size and training loss,
demonstrating that larger input vocabularies consistently enhance model
performance, regardless of model size. Using a large input vocabulary, we
achieve performance comparable to double-sized baselines with no additional
cost. Our findings highlight the importance of tokenization in scaling laws and
provide practical insight for tokenizer design, paving the way for more
efficient and powerful LLMs.Summary
AI-Generated Summary