Marco-o1: Verso Modelli di Ragionamento Aperti per Soluzioni Aperte

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

November 21, 2024
Autori: Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI

Abstract

Attualmente OpenAI o1 ha suscitato un'impennata di interesse nello studio dei grandi modelli di ragionamento (LRM). Approfittando di questo slancio, Marco-o1 non si concentra solo su discipline con risposte standard, come matematica, fisica e programmazione - che si prestano bene al reinforcement learning (RL) - ma pone anche maggiore enfasi su risoluzioni aperte. Ci proponiamo di affrontare la domanda: "Il modello o1 può generalizzare efficacemente a domini più ampi in cui mancano standard chiari e le ricompense sono difficili da quantificare?" Marco-o1 è alimentato dal fine-tuning Chain-of-Thought (CoT), dalla ricerca ad albero Monte Carlo (MCTS), da meccanismi di riflessione e da strategie di ragionamento innovative - ottimizzate per compiti complessi di risoluzione di problemi del mondo reale.
English
Currently OpenAI o1 has sparked a surge of interest in the study of large reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on disciplines with standard answers, such as mathematics, physics, and coding -- which are well-suited for reinforcement learning (RL) -- but also places greater emphasis on open-ended resolutions. We aim to address the question: "Can the o1 model effectively generalize to broader domains where clear standards are absent and rewards are challenging to quantify?" Marco-o1 is powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), reflection mechanisms, and innovative reasoning strategies -- optimized for complex real-world problem-solving tasks.

Summary

AI-Generated Summary

PDF584November 22, 2024