LLaVA-o1: Laat Vision Language Models Stapsgewijs Redeneren
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
November 15, 2024
Auteurs: Guowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan
cs.AI
Samenvatting
Grote taalmodellen hebben aanzienlijke vooruitgang getoond in redeneervermogen, met name door schaalvergroting tijdens inferentie, zoals geïllustreerd door modellen zoals OpenAI's o1. Echter, huidige Visie-Taal Modellen (VLM's) hebben vaak moeite met systematische en gestructureerde redenering, vooral bij het uitvoeren van complexe visuele vraag-antwoordtaken. In dit werk introduceren we LLaVA-o1, een nieuw VLM dat is ontworpen om autonome meertrapsredenering uit te voeren. In tegenstelling tot keten-van-gedachten prompting, betrekt LLaVA-o1 onafhankelijk bij opeenvolgende stadia van samenvatting, visuele interpretatie, logisch redeneren en conclusiegeneratie. Deze gestructureerde aanpak stelt LLaVA-o1 in staat aanzienlijke verbeteringen in precisie te behalen bij redeneringsintensieve taken. Om dit te bereiken, compileren we de LLaVA-o1-100k dataset, waarbij voorbeelden uit verschillende bronnen van visuele vraagbeantwoording worden geïntegreerd en gestructureerde redeneringsannotaties worden verstrekt. Bovendien stellen we een inferentietijd stadiumniveau beam search methode voor, die effectieve schaalvergroting tijdens inferentie mogelijk maakt. Opmerkelijk genoeg presteert LLaVA-o1 met slechts 100k trainingsvoorbeelden en een eenvoudige maar effectieve methode voor schaalvergroting tijdens inferentie niet alleen 8,9% beter dan zijn basismodel op een breed scala van multimodale redeneer-benchmarks, maar overtreft het ook de prestaties van grotere en zelfs gesloten-bronmodellen, zoals Gemini-1.5-pro, GPT-4o-mini, en Llama-3.2-90B-Vision-Instruct.
English
Large language models have demonstrated substantial advancements in reasoning
capabilities, particularly through inference-time scaling, as illustrated by
models such as OpenAI's o1. However, current Vision-Language Models (VLMs)
often struggle to perform systematic and structured reasoning, especially when
handling complex visual question-answering tasks. In this work, we introduce
LLaVA-o1, a novel VLM designed to conduct autonomous multistage reasoning.
Unlike chain-of-thought prompting, LLaVA-o1 independently engages in sequential
stages of summarization, visual interpretation, logical reasoning, and
conclusion generation. This structured approach enables LLaVA-o1 to achieve
marked improvements in precision on reasoning-intensive tasks. To accomplish
this, we compile the LLaVA-o1-100k dataset, integrating samples from various
visual question answering sources and providing structured reasoning
annotations. Besides, we propose an inference-time stage-level beam search
method, which enables effective inference-time scaling. Remarkably, with only
100k training samples and a simple yet effective inference time scaling method,
LLaVA-o1 not only outperforms its base model by 8.9% on a wide range of
multimodal reasoning benchmarks, but also surpasses the performance of larger
and even closed-source models, such as Gemini-1.5-pro, GPT-4o-mini, and
Llama-3.2-90B-Vision-Instruct.Summary
AI-Generated Summary