LLaVA-o1: Consentire ai Modelli di Linguaggio Visivo di Ragionare Passo dopo Passo
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
November 15, 2024
Autori: Guowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan
cs.AI
Abstract
I grandi modelli linguistici hanno dimostrato significativi progressi nelle capacità di ragionamento, in particolare attraverso la scalabilità al momento dell'inferenza, come illustrato da modelli come l'o1 di OpenAI. Tuttavia, attualmente i Modelli Visione-Linguaggio (VLM) spesso faticano a eseguire un ragionamento sistematico e strutturato, specialmente quando affrontano compiti complessi di domande e risposte visive. In questo lavoro, presentiamo LLaVA-o1, un nuovo VLM progettato per condurre un ragionamento autonomo a più fasi. A differenza della semplice concatenazione di prompt, LLaVA-o1 si impegna autonomamente in fasi sequenziali di riassunto, interpretazione visiva, ragionamento logico e generazione di conclusioni. Questo approccio strutturato consente a LLaVA-o1 di ottenere notevoli miglioramenti nella precisione su compiti intensivi di ragionamento. Per raggiungere questo obiettivo, abbiamo compilato il dataset LLaVA-o1-100k, integrando campioni da varie fonti di domande e risposte visive e fornendo annotazioni di ragionamento strutturato. Inoltre, proponiamo un metodo di ricerca a fasci a livello di fase al momento dell'inferenza, che consente una scalabilità efficace al momento dell'inferenza. Notevolmente, con soli 100k campioni di addestramento e un metodo di scalabilità al momento dell'inferenza semplice ma efficace, LLaVA-o1 non solo supera il suo modello base del 8.9% su una vasta gamma di benchmark di ragionamento multimodale, ma supera anche le prestazioni di modelli più grandi e persino chiusi, come Gemini-1.5-pro, GPT-4o-mini e Llama-3.2-90B-Vision-Instruct.
English
Large language models have demonstrated substantial advancements in reasoning
capabilities, particularly through inference-time scaling, as illustrated by
models such as OpenAI's o1. However, current Vision-Language Models (VLMs)
often struggle to perform systematic and structured reasoning, especially when
handling complex visual question-answering tasks. In this work, we introduce
LLaVA-o1, a novel VLM designed to conduct autonomous multistage reasoning.
Unlike chain-of-thought prompting, LLaVA-o1 independently engages in sequential
stages of summarization, visual interpretation, logical reasoning, and
conclusion generation. This structured approach enables LLaVA-o1 to achieve
marked improvements in precision on reasoning-intensive tasks. To accomplish
this, we compile the LLaVA-o1-100k dataset, integrating samples from various
visual question answering sources and providing structured reasoning
annotations. Besides, we propose an inference-time stage-level beam search
method, which enables effective inference-time scaling. Remarkably, with only
100k training samples and a simple yet effective inference time scaling method,
LLaVA-o1 not only outperforms its base model by 8.9% on a wide range of
multimodal reasoning benchmarks, but also surpasses the performance of larger
and even closed-source models, such as Gemini-1.5-pro, GPT-4o-mini, and
Llama-3.2-90B-Vision-Instruct.Summary
AI-Generated Summary