Capacità di conteggio dei grandi modelli linguistici e impatto della tokenizzazione

Abstract

I Transformers, la spina dorsale dei moderni grandi modelli linguistici (LLM), affrontano limitazioni architettoniche innate che ostacolano le loro capacità di ragionamento. A differenza delle reti ricorrenti, i Transformers mancano di connessioni ricorrenti, che li confinano a una computazione a profondità costante. Questa restrizione li colloca nella classe di complessità TC^0, rendendoli teoricamente incapaci di risolvere compiti che richiedono un ragionamento sempre più profondo all'aumentare della lunghezza dell'input. Il conteggio, un componente fondamentale di molti compiti di ragionamento, richiede anche che la profondità del ragionamento cresca linearmente per essere eseguito induttivamente. Sebbene studi precedenti abbiano stabilito i limiti superiori della capacità di conteggio nei modelli esperti basati su Transformer (ossia modelli specificamente addestrati per compiti di conteggio), questi risultati non si estendono direttamente ai LLM di uso generale a causa delle differenze nei meccanismi di ragionamento. Lavori recenti hanno evidenziato come il ragionamento a Catena di Pensiero (CoT) possa contribuire ad alleviare alcune delle limitazioni architettoniche dei Transformers nei compiti di conteggio. Tuttavia, poco attenzione è stata dedicata al ruolo della tokenizzazione in questi modelli. A differenza dei modelli esperti che spesso utilizzano la tokenizzazione a livello di carattere, i LLM si affidano tipicamente a tokenizzatori a livello di byte (BPE), che modificano fondamentalmente il modo in cui il ragionamento viene elaborato. Il nostro lavoro indaga l'impatto della tokenizzazione sulle capacità di conteggio dei LLM, scoprendo consistenti variazioni delle prestazioni basate sulle differenze nella tokenizzazione dell'input. Forniamo analisi sia teoriche che sperimentali, offrendo approfondimenti su come le scelte di tokenizzazione possano compromettere la computabilità teorica dei modelli, ispirando così la progettazione di nuovi metodi di tokenizzazione per potenziare il ragionamento nei LLM.

English

Transformers, the backbone of modern large language models (LLMs), face inherent architectural limitations that impede their reasoning capabilities. Unlike recurrent networks, Transformers lack recurrent connections, confining them to constant-depth computation. This restriction places them in the complexity class TC^0, making them theoretically incapable of solving tasks that demand increasingly deep reasoning as input length grows. Counting, a fundamental component of many reasoning tasks, also requires reasoning depth to grow linearly to be performed inductively. While previous studies have established the upper limits of counting ability in Transformer-based expert models (i.e., models specifically trained for counting tasks), these findings do not directly extend to general-purpose LLMs due to differences in reasoning mechanisms. Recent work has highlighted how Chain of Thought (CoT) reasoning can help alleviate some of the architectural limitations of Transformers in counting tasks. However, little attention has been paid to the role of tokenization in these models. Unlike expert models that often use character-level tokenization, LLMs typically rely on byte-level (BPE) tokenizers, which fundamentally alters the way reasoning is processed. Our work investigates the impact of tokenization on the counting abilities of LLMs, uncovering substantial performance variations based on input tokenization differences. We provide both theoretical and experimental analyses, offering insights into how tokenization choices can undermine models' theoretical computability, thereby inspiring the design of new tokenization methods to enhance reasoning in LLMs.

Capacità di conteggio dei grandi modelli linguistici e impatto della tokenizzazione

Counting Ability of Large Language Models and Impact of Tokenization

Abstract

Summary

Support