Virgo: Un'Esplorazione Preliminare sulla Riproduzione di MLLM Simile a o1

Abstract

Recentemente, i sistemi di ragionamento a pensiero lento, basati su grandi modelli linguistici (LLM), hanno attirato molta attenzione per la scalabilità del tempo di pensiero durante l'inferenza. Vi è anche un crescente interesse nell'adattare questa capacità ai modelli linguistici multimodali di grandi dimensioni (MLLM). Dato che i MLLM gestiscono semantica dei dati più complessa attraverso diverse modalità, risulta intuitivamente più impegnativo implementare sistemi di pensiero lento multimodali. Per affrontare questa problematica, in questo articolo esploriamo un approccio diretto mediante il raffinamento di un MLLM capace con una piccola quantità di dati testuali di lungo pensiero, risultando in un sistema di pensiero lento multimodale, Virgo (Ragionamento visuale con lungo pensiero). Abbiamo constatato che questi processi di ragionamento di lungo periodo, espressi in linguaggio naturale, possono essere trasferiti in modo efficace ai MLLM. Inoltre, sembra che tali dati di ragionamento testuale possano essere ancora più efficaci dei dati di ragionamento visivo nel suscitare le capacità di pensiero lento dei MLLM. Sebbene questo lavoro sia preliminare, dimostra che le capacità di pensiero lento sono fondamentalmente associate al componente del modello linguistico, che può essere trasferito tra diverse modalità o domini. Questa scoperta può essere sfruttata per guidare lo sviluppo di sistemi di ragionamento a pensiero lento più potenti. Mettiamo a disposizione le nostre risorse su https://github.com/RUCAIBox/Virgo.

English

Recently, slow-thinking reasoning systems, built upon large language models (LLMs), have garnered widespread attention by scaling the thinking time during inference. There is also growing interest in adapting this capability to multimodal large language models (MLLMs). Given that MLLMs handle more complex data semantics across different modalities, it is intuitively more challenging to implement multimodal slow-thinking systems. To address this issue, in this paper, we explore a straightforward approach by fine-tuning a capable MLLM with a small amount of textual long-form thought data, resulting in a multimodal slow-thinking system, Virgo (Visual reasoning with long thought). We find that these long-form reasoning processes, expressed in natural language, can be effectively transferred to MLLMs. Moreover, it seems that such textual reasoning data can be even more effective than visual reasoning data in eliciting the slow-thinking capacities of MLLMs. While this work is preliminary, it demonstrates that slow-thinking capacities are fundamentally associated with the language model component, which can be transferred across modalities or domains. This finding can be leveraged to guide the development of more powerful slow-thinking reasoning systems. We release our resources at https://github.com/RUCAIBox/Virgo.

Virgo: Un'Esplorazione Preliminare sulla Riproduzione di MLLM Simile a o1

Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

Abstract

Summary

Support