LLaVA-o1: Laat Vision Language Models Stapsgewijs Redeneren

Samenvatting

Grote taalmodellen hebben aanzienlijke vooruitgang getoond in redeneervermogen, met name door schaalvergroting tijdens inferentie, zoals geïllustreerd door modellen zoals OpenAI's o1. Echter, huidige Visie-Taal Modellen (VLM's) hebben vaak moeite met systematische en gestructureerde redenering, vooral bij het uitvoeren van complexe visuele vraag-antwoordtaken. In dit werk introduceren we LLaVA-o1, een nieuw VLM dat is ontworpen om autonome meertrapsredenering uit te voeren. In tegenstelling tot keten-van-gedachten prompting, betrekt LLaVA-o1 onafhankelijk bij opeenvolgende stadia van samenvatting, visuele interpretatie, logisch redeneren en conclusiegeneratie. Deze gestructureerde aanpak stelt LLaVA-o1 in staat aanzienlijke verbeteringen in precisie te behalen bij redeneringsintensieve taken. Om dit te bereiken, compileren we de LLaVA-o1-100k dataset, waarbij voorbeelden uit verschillende bronnen van visuele vraagbeantwoording worden geïntegreerd en gestructureerde redeneringsannotaties worden verstrekt. Bovendien stellen we een inferentietijd stadiumniveau beam search methode voor, die effectieve schaalvergroting tijdens inferentie mogelijk maakt. Opmerkelijk genoeg presteert LLaVA-o1 met slechts 100k trainingsvoorbeelden en een eenvoudige maar effectieve methode voor schaalvergroting tijdens inferentie niet alleen 8,9% beter dan zijn basismodel op een breed scala van multimodale redeneer-benchmarks, maar overtreft het ook de prestaties van grotere en zelfs gesloten-bronmodellen, zoals Gemini-1.5-pro, GPT-4o-mini, en Llama-3.2-90B-Vision-Instruct.

English

Large language models have demonstrated substantial advancements in reasoning capabilities, particularly through inference-time scaling, as illustrated by models such as OpenAI's o1. However, current Vision-Language Models (VLMs) often struggle to perform systematic and structured reasoning, especially when handling complex visual question-answering tasks. In this work, we introduce LLaVA-o1, a novel VLM designed to conduct autonomous multistage reasoning. Unlike chain-of-thought prompting, LLaVA-o1 independently engages in sequential stages of summarization, visual interpretation, logical reasoning, and conclusion generation. This structured approach enables LLaVA-o1 to achieve marked improvements in precision on reasoning-intensive tasks. To accomplish this, we compile the LLaVA-o1-100k dataset, integrating samples from various visual question answering sources and providing structured reasoning annotations. Besides, we propose an inference-time stage-level beam search method, which enables effective inference-time scaling. Remarkably, with only 100k training samples and a simple yet effective inference time scaling method, LLaVA-o1 not only outperforms its base model by 8.9% on a wide range of multimodal reasoning benchmarks, but also surpasses the performance of larger and even closed-source models, such as Gemini-1.5-pro, GPT-4o-mini, and Llama-3.2-90B-Vision-Instruct.

LLaVA-o1: Laat Vision Language Models Stapsgewijs Redeneren

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

Samenvatting

Support