Marco-o1: Auf dem Weg zu offenen Argumentationsmodellen für offene Lösungen
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
November 21, 2024
Autoren: Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Zusammenfassung
Aktuell hat OpenAI o1 ein starkes Interesse an der Erforschung großer
Schlussfolgerungsmodelle (LRM) geweckt. Aufbauend auf diesem Schwung konzentriert sich Marco-o1 nicht nur auf Disziplinen mit standardisierten Antworten, wie Mathematik, Physik und Codierung - die gut für reinforcement learning (RL) geeignet sind - sondern legt auch einen größeren Schwerpunkt auf offene Lösungsansätze. Wir möchten der Frage nachgehen: "Kann das o1-Modell effektiv auf breitere Bereiche verallgemeinern, in denen klare Standards fehlen und Belohnungen schwer quantifizierbar sind?" Marco-o1 wird durch Chain-of-Thought (CoT)-Feinabstimmung, Monte Carlo Tree Search (MCTS), Reflexionsmechanismen und innovative Schlussfolgerungsstrategien angetrieben - optimiert für komplexe Problemlösungsaufgaben in der realen Welt.
English
Currently OpenAI o1 has sparked a surge of interest in the study of large
reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on
disciplines with standard answers, such as mathematics, physics, and coding --
which are well-suited for reinforcement learning (RL) -- but also places
greater emphasis on open-ended resolutions. We aim to address the question:
"Can the o1 model effectively generalize to broader domains where clear
standards are absent and rewards are challenging to quantify?" Marco-o1 is
powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS),
reflection mechanisms, and innovative reasoning strategies -- optimized for
complex real-world problem-solving tasks.Summary
AI-Generated Summary