Verso il Ragionamento del Sistema 2 nei LLMs: Imparare a Pensare con la Meta Catena di Pensiero
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
January 8, 2025
Autori: Violet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, Chelsea Finn
cs.AI
Abstract
Proponiamo un nuovo framework, Meta Catena di Pensiero (Meta-CoT), che estende la tradizionale Catena di Pensiero (CoT) modellando esplicitamente il ragionamento sottostante necessario per giungere a una particolare CoT. Presentiamo evidenze empiriche da modelli all'avanguardia che mostrano comportamenti coerenti con la ricerca contestuale, ed esploriamo metodi per produrre Meta-CoT tramite supervisione del processo, generazione di dati sintetici e algoritmi di ricerca. Infine, delineiamo un pipeline concreto per addestrare un modello a produrre Meta-CoT, incorporando l'ottimizzazione dell'istruzione con tracce di ricerca linearizzate e apprendimento per rinforzo post-addestramento. Infine, discutiamo questioni di ricerca aperte, inclusi principi di scalabilità, ruoli dei verificatori e il potenziale per scoprire nuovi algoritmi di ragionamento. Questo lavoro fornisce una roadmap teorica e pratica per abilitare Meta-CoT nei LLMs, aprendo la strada a un ragionamento più potente e simile a quello umano nell'intelligenza artificiale.
English
We propose a novel framework, Meta Chain-of-Thought (Meta-CoT), which extends
traditional Chain-of-Thought (CoT) by explicitly modeling the underlying
reasoning required to arrive at a particular CoT. We present empirical evidence
from state-of-the-art models exhibiting behaviors consistent with in-context
search, and explore methods for producing Meta-CoT via process supervision,
synthetic data generation, and search algorithms. Finally, we outline a
concrete pipeline for training a model to produce Meta-CoTs, incorporating
instruction tuning with linearized search traces and reinforcement learning
post-training. Finally, we discuss open research questions, including scaling
laws, verifier roles, and the potential for discovering novel reasoning
algorithms. This work provides a theoretical and practical roadmap to enable
Meta-CoT in LLMs, paving the way for more powerful and human-like reasoning in
artificial intelligence.Summary
AI-Generated Summary