ChatPaper.aiChatPaper

머베리: 집단 몬테 카를로 트리 탐색을 통해 o1과 유사한 추론과 반성을 갖춘 MLLM의 강화

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

December 24, 2024
저자: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
cs.AI

초록

본 연구에서는 각 중간 단계를 만들어가며 최종 답변까지 포함된 추론 과정을 이해하고 해결하는 MLLM을 개발하는 것을 목표로 합니다. 이를 위해, 효과적이고 효율적인 추론 경로 탐색과 학습을 위해 "트리 탐색"에 집단 학습 개념을 도입하는 MLLM을 위한 새로운 학습-추론 방법인 CoMCTS(집단 몬테카를로 트리 탐색)를 제안합니다. CoMCTS의 핵심 아이디어는 확장, 시뮬레이션 및 에러 위치 결정, 역전파, 그리고 선택을 포함한 네 가지 반복적 작업을 통해 올바른 답변으로의 효과적인 추론 경로를 공동으로 추측, 탐색 및 식별하기 위해 다중 모델로부터 집단 지식을 활용하는 것입니다. CoMCTS를 사용하여 각 질문에 대해 풍부하고 명확하며 명확하게 정의된 추론 노드 트리를 갖는 다중 모달 데이터셋인 Mulberry-260k를 구축합니다. Mulberry-260k를 사용하여 Mulberry라는 모델을 훈련시키기 위해 집단 SFT를 수행하며, Mulberry는 단계별 추론 및 반성 능력을 갖춘 일련의 MLLM입니다. 다양한 벤치마크에서 제안된 방법의 우수성을 입증하는 방대한 실험을 수행했습니다. 코드는 https://github.com/HJYao00/Mulberry에서 제공될 예정입니다.
English
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry

Summary

AI-Generated Summary

PDF402December 26, 2024