Amoreira: Capacitando MLLM com Raciocínio e Reflexão semelhantes ao o1 através de Busca Coletiva de Árvore Monte Carlo
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
December 24, 2024
Autores: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
cs.AI
Resumo
Neste trabalho, temos como objetivo desenvolver um MLLM que compreende e resolve questões aprendendo a criar cada etapa intermediária do raciocínio envolvido até a resposta final. Para isso, propomos a Busca Coletiva de Árvore de Monte Carlo (CoMCTS), um novo método de aprendizado para raciocinar em MLLMs, que introduz o conceito de aprendizado coletivo na "busca em árvore" para uma busca e aprendizado de caminhos de raciocínio eficazes e eficientes. A ideia central do CoMCTS é aproveitar o conhecimento coletivo de vários modelos para conjecturar, buscar e identificar colaborativamente caminhos de raciocínio eficazes em direção às respostas corretas por meio de quatro operações iterativas, incluindo Expansão, Simulação e Posicionamento do Erro, Retropropagação e Seleção. Utilizando o CoMCTS, construímos o Mulberry-260k, um conjunto de dados multimodal com uma árvore de nós de raciocínio ricos, explícitos e bem definidos para cada pergunta. Com o Mulberry-260k, realizamos SFT coletivo para treinar nosso modelo, Mulberry, uma série de MLLMs com capacidades de Raciocínio e Reflexão passo a passo semelhantes ao o1. Experimentos extensivos demonstram a superioridade de nossos métodos propostos em vários benchmarks. O código estará disponível em https://github.com/HJYao00/Mulberry
English
In this work, we aim to develop an MLLM that understands and solves questions
by learning to create each intermediate step of the reasoning involved till the
final answer. To this end, we propose Collective Monte Carlo Tree Search
(CoMCTS), a new learning-to-reason method for MLLMs, which introduces the
concept of collective learning into ``tree search'' for effective and efficient
reasoning-path searching and learning. The core idea of CoMCTS is to leverage
collective knowledge from multiple models to collaboratively conjecture, search
and identify effective reasoning paths toward correct answers via four
iterative operations including Expansion, Simulation and Error Positioning,
Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a
multimodal dataset with a tree of rich, explicit and well-defined reasoning
nodes for each question. With Mulberry-260k, we perform collective SFT to train
our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and
Reflection capabilities. Extensive experiments demonstrate the superiority of
our proposed methods on various benchmarks. Code will be available at
https://github.com/HJYao00/MulberrySummary
AI-Generated Summary