Marco-o1: Verso Modelli di Ragionamento Aperti per Soluzioni Aperte
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
November 21, 2024
Autori: Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Abstract
Attualmente OpenAI o1 ha suscitato un'impennata di interesse nello studio dei grandi modelli di ragionamento (LRM). Approfittando di questo slancio, Marco-o1 non si concentra solo su discipline con risposte standard, come matematica, fisica e programmazione - che si prestano bene al reinforcement learning (RL) - ma pone anche maggiore enfasi su risoluzioni aperte. Ci proponiamo di affrontare la domanda: "Il modello o1 può generalizzare efficacemente a domini più ampi in cui mancano standard chiari e le ricompense sono difficili da quantificare?" Marco-o1 è alimentato dal fine-tuning Chain-of-Thought (CoT), dalla ricerca ad albero Monte Carlo (MCTS), da meccanismi di riflessione e da strategie di ragionamento innovative - ottimizzate per compiti complessi di risoluzione di problemi del mondo reale.
English
Currently OpenAI o1 has sparked a surge of interest in the study of large
reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on
disciplines with standard answers, such as mathematics, physics, and coding --
which are well-suited for reinforcement learning (RL) -- but also places
greater emphasis on open-ended resolutions. We aim to address the question:
"Can the o1 model effectively generalize to broader domains where clear
standards are absent and rewards are challenging to quantify?" Marco-o1 is
powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS),
reflection mechanisms, and innovative reasoning strategies -- optimized for
complex real-world problem-solving tasks.Summary
AI-Generated Summary