Zählvermögen großer Sprachmodelle und Auswirkungen der Tokenisierung
Counting Ability of Large Language Models and Impact of Tokenization
October 25, 2024
Autoren: Xiang Zhang, Juntai Cao, Chenyu You
cs.AI
Zusammenfassung
Transformer, das Rückgrat moderner großer Sprachmodelle (LLMs), steht vor inhärenten architektonischen Einschränkungen, die ihre Fähigkeiten zur Schlussfolgerung behindern. Im Gegensatz zu rekurrenten Netzwerken fehlen Transformers rekurrente Verbindungen, was sie auf eine Berechnung mit konstanter Tiefe beschränkt. Diese Einschränkung platziert sie in der Komplexitätsklasse TC^0 und macht sie theoretisch unfähig, Aufgaben zu lösen, die zunehmend tiefe Schlussfolgerungen erfordern, wenn die Eingabelänge wächst. Das Zählen, eine grundlegende Komponente vieler Schlussfolgerungsaufgaben, erfordert auch, dass die Schlussfolgertiefe linear wächst, um induktiv durchgeführt zu werden. Während frühere Studien die oberen Grenzen der Zählfähigkeit in auf Transformer basierenden Expertenmodellen (d. h. Modelle, die speziell für Zählaufgaben trainiert wurden) festgelegt haben, lassen sich diese Erkenntnisse nicht direkt auf allgemeine LLMs übertragen, aufgrund von Unterschieden in den Schlussfolgerungsmechanismen. Aktuelle Arbeiten haben hervorgehoben, wie das Chain of Thought (CoT)-Schlussfolgern dazu beitragen kann, einige der architektonischen Einschränkungen von Transformers bei Zählaufgaben zu mildern. Allerdings wurde der Rolle der Tokenisierung in diesen Modellen bisher wenig Aufmerksamkeit geschenkt. Im Gegensatz zu Expertenmodellen, die oft eine Tokenisierung auf Zeichenebene verwenden, verlassen sich LLMs typischerweise auf byte-level (BPE)-Tokenizer, was grundlegend die Art und Weise verändert, wie Schlussfolgerungen verarbeitet werden. Unsere Arbeit untersucht die Auswirkungen der Tokenisierung auf die Zählfähigkeiten von LLMs und deckt erhebliche Leistungsunterschiede aufgrund von Unterschieden in der Eingabetokenisierung auf. Wir bieten sowohl theoretische als auch experimentelle Analysen, die Einblicke geben, wie Tokenisierungswahlen die theoretische Berechenbarkeit von Modellen untergraben können, und somit die Gestaltung neuer Tokenisierungsmethoden zur Verbesserung der Schlussfolgerung in LLMs inspirieren.
English
Transformers, the backbone of modern large language models (LLMs), face
inherent architectural limitations that impede their reasoning capabilities.
Unlike recurrent networks, Transformers lack recurrent connections, confining
them to constant-depth computation. This restriction places them in the
complexity class TC^0, making them theoretically incapable of solving tasks
that demand increasingly deep reasoning as input length grows. Counting, a
fundamental component of many reasoning tasks, also requires reasoning depth to
grow linearly to be performed inductively. While previous studies have
established the upper limits of counting ability in Transformer-based expert
models (i.e., models specifically trained for counting tasks), these findings
do not directly extend to general-purpose LLMs due to differences in reasoning
mechanisms. Recent work has highlighted how Chain of Thought (CoT) reasoning
can help alleviate some of the architectural limitations of Transformers in
counting tasks. However, little attention has been paid to the role of
tokenization in these models. Unlike expert models that often use
character-level tokenization, LLMs typically rely on byte-level (BPE)
tokenizers, which fundamentally alters the way reasoning is processed. Our work
investigates the impact of tokenization on the counting abilities of LLMs,
uncovering substantial performance variations based on input tokenization
differences. We provide both theoretical and experimental analyses, offering
insights into how tokenization choices can undermine models' theoretical
computability, thereby inspiring the design of new tokenization methods to
enhance reasoning in LLMs.Summary
AI-Generated Summary