Gelsomino: Potenziare MLLM con ragionamento e riflessione simili a o1 tramite Ricerca ad Albero Monte Carlo Collettiva
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
December 24, 2024
Autori: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
cs.AI
Abstract
In questo lavoro, miriamo a sviluppare un MLLM che comprenda e risolva domande apprendendo a creare ciascun passaggio intermedio del ragionamento coinvolto fino alla risposta finale. A tal fine, proponiamo Collective Monte Carlo Tree Search (CoMCTS), un nuovo metodo di apprendimento per il ragionamento per MLLM, che introduce il concetto di apprendimento collettivo nella "ricerca ad albero" per una ricerca e apprendimento del percorso di ragionamento efficace ed efficiente. L'idea principale di CoMCTS è sfruttare la conoscenza collettiva di più modelli per congetturare, cercare e identificare collaborativamente percorsi di ragionamento efficaci verso risposte corrette tramite quattro operazioni iterative, tra cui Espansione, Simulazione e Posizionamento dell'Errore, Retropropagazione e Selezione. Utilizzando CoMCTS, costruiamo Mulberry-260k, un dataset multimodale con un albero di nodi di ragionamento ricchi, espliciti e ben definiti per ciascuna domanda. Con Mulberry-260k, eseguiamo SFT collettivo per addestrare il nostro modello, Mulberry, una serie di MLLM con capacità di Ragionamento e Riflessione passo dopo passo simili a o1. Estesi esperimenti dimostrano la superiorità dei nostri metodi proposti su vari benchmark. Il codice sarà disponibile su https://github.com/HJYao00/Mulberry
English
In this work, we aim to develop an MLLM that understands and solves questions
by learning to create each intermediate step of the reasoning involved till the
final answer. To this end, we propose Collective Monte Carlo Tree Search
(CoMCTS), a new learning-to-reason method for MLLMs, which introduces the
concept of collective learning into ``tree search'' for effective and efficient
reasoning-path searching and learning. The core idea of CoMCTS is to leverage
collective knowledge from multiple models to collaboratively conjecture, search
and identify effective reasoning paths toward correct answers via four
iterative operations including Expansion, Simulation and Error Positioning,
Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a
multimodal dataset with a tree of rich, explicit and well-defined reasoning
nodes for each question. With Mulberry-260k, we perform collective SFT to train
our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and
Reflection capabilities. Extensive experiments demonstrate the superiority of
our proposed methods on various benchmarks. Code will be available at
https://github.com/HJYao00/MulberrySummary
AI-Generated Summary