LLMにおけるシステム2推論に向けて:メタ思考を用いた考え方の学習
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
January 8, 2025
著者: Violet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, Chelsea Finn
cs.AI
要旨
私たちは、Meta Chain-of-Thought(Meta-CoT)という新しいフレームワークを提案します。このフレームワークは、特定のChain-of-Thought(CoT)に到達するために必要な根底の推論を明示的にモデル化することで、従来のChain-of-Thoughtを拡張します。最先端のモデルからの実証的証拠を提示し、コンテキスト内検索と一致する振る舞いを示す方法を探求し、プロセス監督、合成データ生成、および検索アルゴリズムを用いてMeta-CoTを生成する方法を検討します。最後に、モデルを訓練してMeta-CoTを生成する具体的なパイプラインを概説し、線形化された検索トレースと訓練後の強化学習を組み込んだ指示チューニングを取り入れます。最後に、スケーリング則、検証者の役割、および新しい推論アルゴリズムの発見の可能性を含む未解決の研究課題について議論します。この研究は、LLMsにMeta-CoTを可能にするための理論的かつ実践的なロードマップを提供し、人間らしい推論をより強力に実現する人工知能の道筋を示しています。
English
We propose a novel framework, Meta Chain-of-Thought (Meta-CoT), which extends
traditional Chain-of-Thought (CoT) by explicitly modeling the underlying
reasoning required to arrive at a particular CoT. We present empirical evidence
from state-of-the-art models exhibiting behaviors consistent with in-context
search, and explore methods for producing Meta-CoT via process supervision,
synthetic data generation, and search algorithms. Finally, we outline a
concrete pipeline for training a model to produce Meta-CoTs, incorporating
instruction tuning with linearized search traces and reinforcement learning
post-training. Finally, we discuss open research questions, including scaling
laws, verifier roles, and the potential for discovering novel reasoning
algorithms. This work provides a theoretical and practical roadmap to enable
Meta-CoT in LLMs, paving the way for more powerful and human-like reasoning in
artificial intelligence.Summary
AI-Generated Summary