ChatPaper.aiChatPaper

Mulberry: 集合モンテカルロ木探索を通じた o1 のような推論と反映を備えた MLLM の強化

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

December 24, 2024
著者: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
cs.AI

要旨

本研究では、質問を理解し解決するMLLMを開発することを目指しています。このMLLMは、推論の各中間ステップを作成することを学習し、最終的な回答まで関与する推論の各段階を理解するものです。このために、効果的かつ効率的な推論パスの探索と学習のために、「CoMCTS(Collective Monte Carlo Tree Search)」というMLLM向けの新しい推論学習手法を提案します。CoMCTSの中核アイデアは、複数のモデルからの集合知識を活用して、拡張、シミュレーションとエラー位置決定、逆伝播、選択を含む4つの反復操作を介して、正しい回答に向けた効果的な推論パスを共同で推測、探索、特定することです。CoMCTSを使用して、各質問に対して豊富で明確かつ明確に定義された推論ノードのツリーを持つマルベリー260kという多モーダルデータセットを構築します。Mulberry-260kを使用して、モデルMulberryを訓練するために集合的SFTを実行し、ステップバイステップの推論と反射能力を持つMLLMのシリーズを構築します。幅広い実験により、提案手法の様々なベンチマークにおける優越性が示されます。コードはhttps://github.com/HJYao00/Mulberry で入手可能です。
English
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry

Summary

AI-Generated Summary

PDF402December 26, 2024