Rumo ao Raciocínio do Sistema 2 em LLMs: Aprendendo a Pensar com Meta Cadeia de Pensamento

Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

January 8, 2025
Autores: Violet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, Chelsea Finn
cs.AI

Resumo

Propomos um novo framework, Meta Corrente de Pensamento (Meta-CoT), que estende a tradicional Corrente de Pensamento (CoT) ao modelar explicitamente o raciocínio subjacente necessário para chegar a uma CoT específica. Apresentamos evidências empíricas de modelos de ponta que exibem comportamentos consistentes com busca em contexto, e exploramos métodos para produzir Meta-CoT por meio de supervisão de processo, geração de dados sintéticos e algoritmos de busca. Por fim, delineamos um pipeline concreto para treinar um modelo a fim de produzir Meta-CoTs, incorporando ajuste de instruções com rastros de busca linearizados e aprendizado por reforço pós-treinamento. Discutimos ainda questões de pesquisa em aberto, incluindo leis de escalonamento, papéis de verificador e o potencial para descoberta de novos algoritmos de raciocínio. Este trabalho fornece um roteiro teórico e prático para viabilizar o Meta-CoT em LLMs, abrindo caminho para um raciocínio mais poderoso e semelhante ao humano na inteligência artificial.
English
We propose a novel framework, Meta Chain-of-Thought (Meta-CoT), which extends traditional Chain-of-Thought (CoT) by explicitly modeling the underlying reasoning required to arrive at a particular CoT. We present empirical evidence from state-of-the-art models exhibiting behaviors consistent with in-context search, and explore methods for producing Meta-CoT via process supervision, synthetic data generation, and search algorithms. Finally, we outline a concrete pipeline for training a model to produce Meta-CoTs, incorporating instruction tuning with linearized search traces and reinforcement learning post-training. Finally, we discuss open research questions, including scaling laws, verifier roles, and the potential for discovering novel reasoning algorithms. This work provides a theoretical and practical roadmap to enable Meta-CoT in LLMs, paving the way for more powerful and human-like reasoning in artificial intelligence.

Summary

AI-Generated Summary

PDF832January 9, 2025