LLaVA-o1: Lassen Sie Vision-Sprachmodelle Schritt für Schritt Schlussfolgerungen ziehen
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
November 15, 2024
Autoren: Guowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan
cs.AI
Zusammenfassung
Große Sprachmodelle haben erhebliche Fortschritte in den Fähigkeiten des Schlussfolgerns gezeigt, insbesondere durch das Skalieren zur Inferenzzeit, wie es von Modellen wie OpenAI's o1 veranschaulicht wird. Allerdings haben aktuelle Vision-Sprachmodelle (VLMs) oft Schwierigkeiten, systematisches und strukturiertes Schlussfolgern durchzuführen, insbesondere bei der Bewältigung komplexer visueller Frage-Antwort-Aufgaben. In dieser Arbeit stellen wir LLaVA-o1 vor, ein neuartiges VLM, das für autonomes mehrstufiges Schlussfolgern konzipiert ist. Im Gegensatz zur Ketten-Denkanregung beschäftigt sich LLaVA-o1 eigenständig mit aufeinanderfolgenden Stufen der Zusammenfassung, visuellen Interpretation, logischen Schlussfolgerung und Schlussfolgerungsgenerierung. Dieser strukturierte Ansatz ermöglicht es LLaVA-o1, deutliche Verbesserungen in der Präzision bei schlussfolgerungsintensiven Aufgaben zu erzielen. Um dies zu erreichen, erstellen wir den LLaVA-o1-100k Datensatz, der Proben aus verschiedenen visuellen Frage-Antwort-Quellen integriert und strukturierte Schlussfolgerungsannotationen bereitstellt. Darüber hinaus schlagen wir eine Inferenzzeit-Stufen-Level-Beam-Suche-Methode vor, die eine effektive Skalierung zur Inferenzzeit ermöglicht. Bemerkenswert ist, dass LLaVA-o1 mit nur 100k Trainingsproben und einer einfachen, aber effektiven Methode zur Skalierung zur Inferenzzeit nicht nur sein Basismodell auf einer Vielzahl von multimodalen Schlussfolgerungs-Benchmarks um 8,9% übertrifft, sondern auch die Leistung größerer und sogar geschlossener Modelle wie Gemini-1.5-pro, GPT-4o-mini und Llama-3.2-90B-Vision-Instruct übertrifft.
English
Large language models have demonstrated substantial advancements in reasoning
capabilities, particularly through inference-time scaling, as illustrated by
models such as OpenAI's o1. However, current Vision-Language Models (VLMs)
often struggle to perform systematic and structured reasoning, especially when
handling complex visual question-answering tasks. In this work, we introduce
LLaVA-o1, a novel VLM designed to conduct autonomous multistage reasoning.
Unlike chain-of-thought prompting, LLaVA-o1 independently engages in sequential
stages of summarization, visual interpretation, logical reasoning, and
conclusion generation. This structured approach enables LLaVA-o1 to achieve
marked improvements in precision on reasoning-intensive tasks. To accomplish
this, we compile the LLaVA-o1-100k dataset, integrating samples from various
visual question answering sources and providing structured reasoning
annotations. Besides, we propose an inference-time stage-level beam search
method, which enables effective inference-time scaling. Remarkably, with only
100k training samples and a simple yet effective inference time scaling method,
LLaVA-o1 not only outperforms its base model by 8.9% on a wide range of
multimodal reasoning benchmarks, but also surpasses the performance of larger
and even closed-source models, such as Gemini-1.5-pro, GPT-4o-mini, and
Llama-3.2-90B-Vision-Instruct.Summary
AI-Generated Summary