Capacité de comptage des grands modèles de langage et impact de la tokenisation

Counting Ability of Large Language Models and Impact of Tokenization

October 25, 2024
Auteurs: Xiang Zhang, Juntai Cao, Chenyu You
cs.AI

Résumé

Les Transformers, l'épine dorsale des modèles de langage à grande échelle (LLM) modernes, rencontrent des limitations architecturales inhérentes qui entravent leurs capacités de raisonnement. Contrairement aux réseaux récurrents, les Transformers manquent de connexions récurrentes, les confinant à une computation de profondeur constante. Cette restriction les place dans la classe de complexité TC^0, les rendant théoriquement incapables de résoudre des tâches exigeant un raisonnement de plus en plus profond à mesure que la longueur de l'entrée augmente. Le comptage, composante fondamentale de nombreuses tâches de raisonnement, nécessite également une profondeur de raisonnement croissante pour être effectué de manière inductive. Alors que des études antérieures ont établi les limites supérieures de la capacité de comptage dans les modèles experts basés sur les Transformers (c'est-à-dire, les modèles spécifiquement entraînés pour des tâches de comptage), ces résultats ne s'étendent pas directement aux LLM polyvalents en raison de différences dans les mécanismes de raisonnement. Des travaux récents ont souligné comment le raisonnement en chaîne de pensée (CoT) peut contribuer à atténuer certaines des limitations architecturales des Transformers dans les tâches de comptage. Cependant, peu d'attention a été accordée au rôle de la tokenisation dans ces modèles. Contrairement aux modèles experts qui utilisent souvent une tokenisation au niveau des caractères, les LLM s'appuient généralement sur des tokeniseurs au niveau des octets (BPE), ce qui modifie fondamentalement la manière dont le raisonnement est traité. Notre travail examine l'impact de la tokenisation sur les capacités de comptage des LLM, révélant d'importantes variations de performance en fonction des différences de tokenisation d'entrée. Nous proposons à la fois des analyses théoriques et expérimentales, offrant des perspectives sur la manière dont les choix de tokenisation peuvent compromettre la computabilité théorique des modèles, inspirant ainsi la conception de nouvelles méthodes de tokenisation pour améliorer le raisonnement dans les LLM.
English
Transformers, the backbone of modern large language models (LLMs), face inherent architectural limitations that impede their reasoning capabilities. Unlike recurrent networks, Transformers lack recurrent connections, confining them to constant-depth computation. This restriction places them in the complexity class TC^0, making them theoretically incapable of solving tasks that demand increasingly deep reasoning as input length grows. Counting, a fundamental component of many reasoning tasks, also requires reasoning depth to grow linearly to be performed inductively. While previous studies have established the upper limits of counting ability in Transformer-based expert models (i.e., models specifically trained for counting tasks), these findings do not directly extend to general-purpose LLMs due to differences in reasoning mechanisms. Recent work has highlighted how Chain of Thought (CoT) reasoning can help alleviate some of the architectural limitations of Transformers in counting tasks. However, little attention has been paid to the role of tokenization in these models. Unlike expert models that often use character-level tokenization, LLMs typically rely on byte-level (BPE) tokenizers, which fundamentally alters the way reasoning is processed. Our work investigates the impact of tokenization on the counting abilities of LLMs, uncovering substantial performance variations based on input tokenization differences. We provide both theoretical and experimental analyses, offering insights into how tokenization choices can undermine models' theoretical computability, thereby inspiring the design of new tokenization methods to enhance reasoning in LLMs.

Summary

AI-Generated Summary

PDF102November 16, 2024