Addestramento di Grandi Modelli Linguistici per Ragionare in uno Spazio Latente Continuo

Abstract

I grandi modelli linguistici (LLM) sono limitati a ragionare nello "spazio linguistico", dove esprimono tipicamente il processo di ragionamento con una catena di pensiero (CoT) per risolvere un problema di ragionamento complesso. Tuttavia, sosteniamo che lo spazio linguistico potrebbe non essere sempre ottimale per il ragionamento. Ad esempio, la maggior parte dei token delle parole sono principalmente per la coerenza testuale e non essenziali per il ragionamento, mentre alcuni token critici richiedono una pianificazione complessa e pongono enormi sfide ai LLM. Per esplorare il potenziale del ragionamento dei LLM in uno spazio latente non limitato all'uso del linguaggio naturale, introduciamo un nuovo paradigma denominato Coconut (Catena di Pensiero Continuo). Utilizziamo lo stato nascosto finale del LLM come rappresentazione dello stato di ragionamento (chiamato "pensiero continuo"). Piuttosto che decodificarlo in un token di parola, lo reinseriamo nel LLM come incorporamento dell'input successivo direttamente nello spazio continuo. Gli esperimenti mostrano che Coconut può efficacemente potenziare il LLM su diversi compiti di ragionamento. Questo nuovo paradigma di ragionamento latente porta a modelli di ragionamento avanzati emergenti: il pensiero continuo può codificare più alternative passaggi di ragionamento successivi, consentendo al modello di eseguire una ricerca in ampiezza (BFS) per risolvere il problema, anziché impegnarsi prematuramente in un singolo percorso deterministico come CoT. Coconut supera CoT in certi compiti di ragionamento logico che richiedono un notevole backtracking durante la pianificazione, con meno token di pensiero durante l'inferezza. Queste scoperte dimostrano la promessa del ragionamento latente e offrono preziose intuizioni per la ricerca futura.

English

Large language models (LLMs) are restricted to reason in the "language space", where they typically express the reasoning process with a chain-of-thought (CoT) to solve a complex reasoning problem. However, we argue that language space may not always be optimal for reasoning. For example, most word tokens are primarily for textual coherence and not essential for reasoning, while some critical tokens require complex planning and pose huge challenges to LLMs. To explore the potential of LLM reasoning in an unrestricted latent space instead of using natural language, we introduce a new paradigm Coconut (Chain of Continuous Thought). We utilize the last hidden state of the LLM as a representation of the reasoning state (termed "continuous thought"). Rather than decoding this into a word token, we feed it back to the LLM as the subsequent input embedding directly in the continuous space. Experiments show that Coconut can effectively augment the LLM on several reasoning tasks. This novel latent reasoning paradigm leads to emergent advanced reasoning patterns: the continuous thought can encode multiple alternative next reasoning steps, allowing the model to perform a breadth-first search (BFS) to solve the problem, rather than prematurely committing to a single deterministic path like CoT. Coconut outperforms CoT in certain logical reasoning tasks that require substantial backtracking during planning, with fewer thinking tokens during inference. These findings demonstrate the promise of latent reasoning and offer valuable insights for future research.

Addestramento di Grandi Modelli Linguistici per Ragionare in uno Spazio Latente Continuo

Training Large Language Models to Reason in a Continuous Latent Space

Abstract

Support