Telmogelijkheid van grote taalmodellen en impact van tokenisatie
Counting Ability of Large Language Models and Impact of Tokenization
October 25, 2024
Auteurs: Xiang Zhang, Juntai Cao, Chenyu You
cs.AI
Samenvatting
Transformers, de ruggengraat van moderne grote taalmodellen (LLM's), worden geconfronteerd met inherente architectonische beperkingen die hun redeneervermogen belemmeren. In tegenstelling tot recurrente netwerken missen Transformers terugkerende verbindingen, waardoor ze beperkt zijn tot berekeningen met constante diepte. Deze beperking plaatst ze in de complexiteitsklasse TC^0, waardoor ze theoretisch niet in staat zijn taken op te lossen die steeds diepere redenering vereisen naarmate de invoerlengte groter wordt. Tellen, een fundamenteel onderdeel van veel redeneertaken, vereist ook dat de redeneerdiepte lineair toeneemt om inductief te worden uitgevoerd. Hoewel eerdere studies de bovengrens van het telvermogen in op expertmodellen gebaseerde Transformers hebben vastgesteld (d.w.z. modellen die specifiek zijn getraind voor tel-taken), strekken deze bevindingen zich niet direct uit tot algemene LLM's vanwege verschillen in redeneermechanismen. Recente onderzoeken hebben benadrukt hoe Chain of Thought (CoT) redeneren kan helpen om enkele van de architectonische beperkingen van Transformers bij tel-taken te verlichten. Er is echter weinig aandacht besteed aan de rol van tokenisatie in deze modellen. In tegenstelling tot expertmodellen die vaak karakterniveau-tokenisatie gebruiken, vertrouwen LLM's doorgaans op byte-niveau (BPE) tokenizers, wat fundamenteel de manier verandert waarop redenering wordt verwerkt. Ons onderzoek onderzoekt de impact van tokenisatie op het telvermogen van LLM's, waarbij aanzienlijke prestatievariaties worden blootgelegd op basis van verschillen in invoertokenisatie. We bieden zowel theoretische als experimentele analyses, waarbij inzichten worden geboden in hoe keuzes in tokenisatie modellen theoretische berekenbaarheid kunnen ondermijnen, waardoor het ontwerpen van nieuwe tokenisatiemethoden wordt gestimuleerd om redenering in LLM's te verbeteren.
English
Transformers, the backbone of modern large language models (LLMs), face
inherent architectural limitations that impede their reasoning capabilities.
Unlike recurrent networks, Transformers lack recurrent connections, confining
them to constant-depth computation. This restriction places them in the
complexity class TC^0, making them theoretically incapable of solving tasks
that demand increasingly deep reasoning as input length grows. Counting, a
fundamental component of many reasoning tasks, also requires reasoning depth to
grow linearly to be performed inductively. While previous studies have
established the upper limits of counting ability in Transformer-based expert
models (i.e., models specifically trained for counting tasks), these findings
do not directly extend to general-purpose LLMs due to differences in reasoning
mechanisms. Recent work has highlighted how Chain of Thought (CoT) reasoning
can help alleviate some of the architectural limitations of Transformers in
counting tasks. However, little attention has been paid to the role of
tokenization in these models. Unlike expert models that often use
character-level tokenization, LLMs typically rely on byte-level (BPE)
tokenizers, which fundamentally alters the way reasoning is processed. Our work
investigates the impact of tokenization on the counting abilities of LLMs,
uncovering substantial performance variations based on input tokenization
differences. We provide both theoretical and experimental analyses, offering
insights into how tokenization choices can undermine models' theoretical
computability, thereby inspiring the design of new tokenization methods to
enhance reasoning in LLMs.Summary
AI-Generated Summary