ChatPaper.aiChatPaper

Virgo: o1과 유사한 MLLM 재현에 대한 예비 탐구

Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

January 3, 2025
저자: Yifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen
cs.AI

초록

최근에는 대규모 언어 모델(LLM)을 기반으로 한 느린 사고 추론 시스템이 주목을 받아, 추론 중 사고 시간을 확장하는 방식으로 확장되었습니다. 또한, 이 능력을 다중 모달 대규모 언어 모델(MLLM)에 적용하는 데 관심이 증가하고 있습니다. MLLM은 다양한 모달리티 간 복잡한 데이터 의미를 처리하기 때문에, 다중 모달 느린 사고 시스템을 구현하는 것이 직관적으로 더 어려운 과제입니다. 본 논문에서는 이 문제에 대응하기 위해, 소량의 텍스트 기반 장기 사고 데이터로 능력 있는 MLLM을 세밀하게 조정하여 다중 모달 느린 사고 시스템 Virgo(Visual reasoning with long thought)을 만들어 살펴봅니다. 우리는 자연어로 표현된 이러한 장기 사고 과정이 MLLM으로 효과적으로 전달될 수 있다는 것을 발견했습니다. 게다가, 이러한 텍스트 기반 추론 데이터가 MLLM의 느린 사고 능력을 유발하는 데 시각적 추론 데이터보다 더 효과적일 수 있다는 것으로 보입니다. 이 연구는 초기 단계이지만, 느린 사고 능력은 언어 모델 구성 요소와 근본적으로 관련이 있으며, 모달리티나 도메인 간에 전달될 수 있음을 보여줍니다. 이 결과는 더 강력한 느린 사고 추론 시스템의 개발을 이끌어내는 데 활용될 수 있습니다. 저희 자료는 https://github.com/RUCAIBox/Virgo에서 공개됩니다.
English
Recently, slow-thinking reasoning systems, built upon large language models (LLMs), have garnered widespread attention by scaling the thinking time during inference. There is also growing interest in adapting this capability to multimodal large language models (MLLMs). Given that MLLMs handle more complex data semantics across different modalities, it is intuitively more challenging to implement multimodal slow-thinking systems. To address this issue, in this paper, we explore a straightforward approach by fine-tuning a capable MLLM with a small amount of textual long-form thought data, resulting in a multimodal slow-thinking system, Virgo (Visual reasoning with long thought). We find that these long-form reasoning processes, expressed in natural language, can be effectively transferred to MLLMs. Moreover, it seems that such textual reasoning data can be even more effective than visual reasoning data in eliciting the slow-thinking capacities of MLLMs. While this work is preliminary, it demonstrates that slow-thinking capacities are fundamentally associated with the language model component, which can be transferred across modalities or domains. This finding can be leveraged to guide the development of more powerful slow-thinking reasoning systems. We release our resources at https://github.com/RUCAIBox/Virgo.

Summary

AI-Generated Summary

PDF323January 6, 2025