Addestramento di Grandi Modelli Linguistici per Ragionare in uno Spazio Latente Continuo
Training Large Language Models to Reason in a Continuous Latent Space
December 9, 2024
Autori: Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian
cs.AI
Abstract
I grandi modelli linguistici (LLM) sono limitati a ragionare nello "spazio linguistico", dove esprimono tipicamente il processo di ragionamento con una catena di pensiero (CoT) per risolvere un problema di ragionamento complesso. Tuttavia, sosteniamo che lo spazio linguistico potrebbe non essere sempre ottimale per il ragionamento. Ad esempio, la maggior parte dei token delle parole sono principalmente per la coerenza testuale e non essenziali per il ragionamento, mentre alcuni token critici richiedono una pianificazione complessa e pongono enormi sfide ai LLM. Per esplorare il potenziale del ragionamento dei LLM in uno spazio latente non limitato all'uso del linguaggio naturale, introduciamo un nuovo paradigma denominato Coconut (Catena di Pensiero Continuo). Utilizziamo lo stato nascosto finale del LLM come rappresentazione dello stato di ragionamento (chiamato "pensiero continuo"). Piuttosto che decodificarlo in un token di parola, lo reinseriamo nel LLM come incorporamento dell'input successivo direttamente nello spazio continuo. Gli esperimenti mostrano che Coconut può efficacemente potenziare il LLM su diversi compiti di ragionamento. Questo nuovo paradigma di ragionamento latente porta a modelli di ragionamento avanzati emergenti: il pensiero continuo può codificare più alternative passaggi di ragionamento successivi, consentendo al modello di eseguire una ricerca in ampiezza (BFS) per risolvere il problema, anziché impegnarsi prematuramente in un singolo percorso deterministico come CoT. Coconut supera CoT in certi compiti di ragionamento logico che richiedono un notevole backtracking durante la pianificazione, con meno token di pensiero durante l'inferezza. Queste scoperte dimostrano la promessa del ragionamento latente e offrono preziose intuizioni per la ricerca futura.
English
Large language models (LLMs) are restricted to reason in the "language
space", where they typically express the reasoning process with a
chain-of-thought (CoT) to solve a complex reasoning problem. However, we argue
that language space may not always be optimal for reasoning. For example, most
word tokens are primarily for textual coherence and not essential for
reasoning, while some critical tokens require complex planning and pose huge
challenges to LLMs. To explore the potential of LLM reasoning in an
unrestricted latent space instead of using natural language, we introduce a new
paradigm Coconut (Chain of Continuous Thought). We utilize the last hidden
state of the LLM as a representation of the reasoning state (termed "continuous
thought"). Rather than decoding this into a word token, we feed it back to the
LLM as the subsequent input embedding directly in the continuous space.
Experiments show that Coconut can effectively augment the LLM on several
reasoning tasks. This novel latent reasoning paradigm leads to emergent
advanced reasoning patterns: the continuous thought can encode multiple
alternative next reasoning steps, allowing the model to perform a breadth-first
search (BFS) to solve the problem, rather than prematurely committing to a
single deterministic path like CoT. Coconut outperforms CoT in certain logical
reasoning tasks that require substantial backtracking during planning, with
fewer thinking tokens during inference. These findings demonstrate the promise
of latent reasoning and offer valuable insights for future research.Summary
AI-Generated Summary