Virgo: Uma Exploração Preliminar na Reprodução de MLLM Semelhante ao o1
Virgo: A Preliminary Exploration on Reproducing o1-like MLLM
January 3, 2025
Autores: Yifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen
cs.AI
Resumo
Recentemente, sistemas de raciocínio de pensamento lento, construídos com base em grandes modelos de linguagem (LLMs), têm recebido ampla atenção ao escalar o tempo de pensamento durante a inferência. Há também um interesse crescente em adaptar essa capacidade para modelos de linguagem multimodais de grande porte (MLLMs). Dado que os MLLMs lidam com semântica de dados mais complexos em diferentes modalidades, é intuitivamente mais desafiador implementar sistemas de pensamento lento multimodais.
Para abordar essa questão, neste artigo, exploramos uma abordagem direta ao ajustar finamente um MLLM capaz com uma pequena quantidade de dados textuais de pensamento de longa forma, resultando em um sistema multimodal de pensamento lento, Virgo (Raciocínio visual com pensamento longo). Descobrimos que esses processos de raciocínio de longa forma, expressos em linguagem natural, podem ser transferidos de forma eficaz para MLLMs. Além disso, parece que tais dados de raciocínio textual podem ser ainda mais eficazes do que dados de raciocínio visual para elicitar as capacidades de pensamento lento dos MLLMs. Embora este trabalho seja preliminar, ele demonstra que as capacidades de pensamento lento estão fundamentalmente associadas ao componente do modelo de linguagem, que pode ser transferido entre modalidades ou domínios. Essa descoberta pode ser aproveitada para orientar o desenvolvimento de sistemas de raciocínio de pensamento lento mais poderosos. Disponibilizamos nossos recursos em https://github.com/RUCAIBox/Virgo.
English
Recently, slow-thinking reasoning systems, built upon large language models
(LLMs), have garnered widespread attention by scaling the thinking time during
inference. There is also growing interest in adapting this capability to
multimodal large language models (MLLMs). Given that MLLMs handle more complex
data semantics across different modalities, it is intuitively more challenging
to implement multimodal slow-thinking systems.
To address this issue, in this paper, we explore a straightforward approach
by fine-tuning a capable MLLM with a small amount of textual long-form thought
data, resulting in a multimodal slow-thinking system, Virgo (Visual reasoning
with long thought). We find that these long-form reasoning processes, expressed
in natural language, can be effectively transferred to MLLMs. Moreover, it
seems that such textual reasoning data can be even more effective than visual
reasoning data in eliciting the slow-thinking capacities of MLLMs. While this
work is preliminary, it demonstrates that slow-thinking capacities are
fundamentally associated with the language model component, which can be
transferred across modalities or domains. This finding can be leveraged to
guide the development of more powerful slow-thinking reasoning systems. We
release our resources at https://github.com/RUCAIBox/Virgo.Summary
AI-Generated Summary