Marco-o1: Auf dem Weg zu offenen Argumentationsmodellen für offene Lösungen

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

November 21, 2024
Autoren: Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI

Zusammenfassung

Aktuell hat OpenAI o1 ein starkes Interesse an der Erforschung großer Schlussfolgerungsmodelle (LRM) geweckt. Aufbauend auf diesem Schwung konzentriert sich Marco-o1 nicht nur auf Disziplinen mit standardisierten Antworten, wie Mathematik, Physik und Codierung - die gut für reinforcement learning (RL) geeignet sind - sondern legt auch einen größeren Schwerpunkt auf offene Lösungsansätze. Wir möchten der Frage nachgehen: "Kann das o1-Modell effektiv auf breitere Bereiche verallgemeinern, in denen klare Standards fehlen und Belohnungen schwer quantifizierbar sind?" Marco-o1 wird durch Chain-of-Thought (CoT)-Feinabstimmung, Monte Carlo Tree Search (MCTS), Reflexionsmechanismen und innovative Schlussfolgerungsstrategien angetrieben - optimiert für komplexe Problemlösungsaufgaben in der realen Welt.
English
Currently OpenAI o1 has sparked a surge of interest in the study of large reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on disciplines with standard answers, such as mathematics, physics, and coding -- which are well-suited for reinforcement learning (RL) -- but also places greater emphasis on open-ended resolutions. We aim to address the question: "Can the o1 model effectively generalize to broader domains where clear standards are absent and rewards are challenging to quantify?" Marco-o1 is powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), reflection mechanisms, and innovative reasoning strategies -- optimized for complex real-world problem-solving tasks.

Summary

AI-Generated Summary

PDF293November 22, 2024