Marco-o1 : Vers des modèles de raisonnement ouverts pour des solutions ouvertes.
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
November 21, 2024
Auteurs: Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Résumé
Actuellement, OpenAI o1 a suscité un regain d'intérêt pour l'étude des grands modèles de raisonnement (GMR). S'appuyant sur cette dynamique, Marco-o1 se concentre non seulement sur des disciplines avec des réponses standard, telles que les mathématiques, la physique et la programmation - qui se prêtent bien à l'apprentissage par renforcement (RL) - mais accorde également une plus grande importance aux résolutions ouvertes. Nous visons à répondre à la question : "Le modèle o1 peut-il généraliser efficacement à des domaines plus vastes où les normes claires font défaut et où les récompenses sont difficiles à quantifier ?" Marco-o1 est alimenté par un affinage Chain-of-Thought (CoT), la recherche arborescente Monte Carlo (MCTS), des mécanismes de réflexion et des stratégies de raisonnement innovantes - optimisées pour des tâches complexes de résolution de problèmes du monde réel.
English
Currently OpenAI o1 has sparked a surge of interest in the study of large
reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on
disciplines with standard answers, such as mathematics, physics, and coding --
which are well-suited for reinforcement learning (RL) -- but also places
greater emphasis on open-ended resolutions. We aim to address the question:
"Can the o1 model effectively generalize to broader domains where clear
standards are absent and rewards are challenging to quantify?" Marco-o1 is
powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS),
reflection mechanisms, and innovative reasoning strategies -- optimized for
complex real-world problem-solving tasks.Summary
AI-Generated Summary