Schlussfolgernde Sprachmodelle: Ein Entwurf

Zusammenfassung

Sprachliche Schlussfolgerungsmodelle (RLMs), auch bekannt als Große Schlussfolgerungsmodelle (LRMs) wie OpenAI's o1 und o3, DeepSeek-V3 und Alibabas QwQ, haben die Problemlösungsfähigkeiten der KI neu definiert, indem sie große Sprachmodelle (LLMs) um fortgeschrittene Schlussfolgerungsmechanismen erweitern. Dennoch stellen ihre hohen Kosten, proprietäre Natur und komplexe Architekturen - die auf einzigartige Weise Verstärkendes Lernen (RL), Suchheuristiken und LLMs kombinieren - Zugänglichkeits- und Skalierbarkeitsherausforderungen dar. Um diesen zu begegnen, schlagen wir einen umfassenden Plan vor, der die RLM-Komponenten in ein modulares Framework organisiert, basierend auf einer Umfrage und Analyse aller RLM-Arbeiten. Dieser Plan integriert verschiedene Schlussfolgerungsstrukturen (Ketten, Bäume, Graphen und verschachtelte Formen), Schlussfolgerungsstrategien (z. B. Monte-Carlo-Baumsuche, Beam-Suche), RL-Konzepte (Richtlinien, Wertmodelle und andere) und Überwachungsschemata (ausgabebasierte und prozessbasierte Überwachung). Wir bieten auch detaillierte mathematische Formulierungen und algorithmische Spezifikationen an, um die Implementierung von RLM zu vereinfachen. Indem wir zeigen, wie Schemata wie LLaMA-Berry, QwQ, Journey Learning und Graph of Thoughts als Spezialfälle passen, demonstrieren wir die Vielseitigkeit und vereinheitlichende Potenz des Plans. Um seine Nützlichkeit zu veranschaulichen, stellen wir x1 vor, eine modulare Implementierung für schnelles Prototyping und Experimentieren mit RLM. Unter Verwendung von x1 und einer Literaturübersicht bieten wir wichtige Erkenntnisse, wie z. B. mehrphasiges Training für Richtlinien- und Wertmodelle und die Bedeutung von vertrauten Trainingsverteilungen. Schließlich skizzieren wir, wie RLMs in ein breiteres LLM-Ökosystem integriert werden können, einschließlich Tools und Datenbanken. Unsere Arbeit entschlüsselt den Aufbau von RLM, demokratisiert fortgeschrittene Schlussfolgerungsfähigkeiten und fördert Innovationen, mit dem Ziel, die Kluft zwischen "reichhaltiger KI" und "ärmerer KI" zu verringern, indem die Barrieren für die Entwicklung und Experimentation von RLM gesenkt werden.

English

Reasoning language models (RLMs), also known as Large Reasoning Models (LRMs), such as OpenAI's o1 and o3, DeepSeek-V3, and Alibaba's QwQ, have redefined AI's problem-solving capabilities by extending large language models (LLMs) with advanced reasoning mechanisms. Yet, their high costs, proprietary nature, and complex architectures - uniquely combining Reinforcement Learning (RL), search heuristics, and LLMs - present accessibility and scalability challenges. To address these, we propose a comprehensive blueprint that organizes RLM components into a modular framework, based on a survey and analysis of all RLM works. This blueprint incorporates diverse reasoning structures (chains, trees, graphs, and nested forms), reasoning strategies (e.g., Monte Carlo Tree Search, Beam Search), RL concepts (policy, value models and others), and supervision schemes (Output-Based and Process-Based Supervision). We also provide detailed mathematical formulations and algorithmic specifications to simplify RLM implementation. By showing how schemes like LLaMA-Berry, QwQ, Journey Learning, and Graph of Thoughts fit as special cases, we demonstrate the blueprint's versatility and unifying potential. To illustrate its utility, we introduce x1, a modular implementation for rapid RLM prototyping and experimentation. Using x1 and a literature review, we provide key insights, such as multi-phase training for policy and value models, and the importance of familiar training distributions. Finally, we outline how RLMs can integrate with a broader LLM ecosystem, including tools and databases. Our work demystifies RLM construction, democratizes advanced reasoning capabilities, and fosters innovation, aiming to mitigate the gap between "rich AI" and "poor AI" by lowering barriers to RLM development and experimentation.

Schlussfolgernde Sprachmodelle: Ein Entwurf

Reasoning Language Models: A Blueprint

Zusammenfassung

Summary

Support

Support