Marco-o1: Verso Modelli di Ragionamento Aperti per Soluzioni Aperte

Abstract

Attualmente OpenAI o1 ha suscitato un'impennata di interesse nello studio dei grandi modelli di ragionamento (LRM). Approfittando di questo slancio, Marco-o1 non si concentra solo su discipline con risposte standard, come matematica, fisica e programmazione - che si prestano bene al reinforcement learning (RL) - ma pone anche maggiore enfasi su risoluzioni aperte. Ci proponiamo di affrontare la domanda: "Il modello o1 può generalizzare efficacemente a domini più ampi in cui mancano standard chiari e le ricompense sono difficili da quantificare?" Marco-o1 è alimentato dal fine-tuning Chain-of-Thought (CoT), dalla ricerca ad albero Monte Carlo (MCTS), da meccanismi di riflessione e da strategie di ragionamento innovative - ottimizzate per compiti complessi di risoluzione di problemi del mondo reale.

English

Currently OpenAI o1 has sparked a surge of interest in the study of large reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on disciplines with standard answers, such as mathematics, physics, and coding -- which are well-suited for reinforcement learning (RL) -- but also places greater emphasis on open-ended resolutions. We aim to address the question: "Can the o1 model effectively generalize to broader domains where clear standards are absent and rewards are challenging to quantify?" Marco-o1 is powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), reflection mechanisms, and innovative reasoning strategies -- optimized for complex real-world problem-solving tasks.

Marco-o1: Verso Modelli di Ragionamento Aperti per Soluzioni Aperte

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

Abstract

Support