LLaVA-o1: Lassen Sie Vision-Sprachmodelle Schritt für Schritt Schlussfolgerungen ziehen

Zusammenfassung

Große Sprachmodelle haben erhebliche Fortschritte in den Fähigkeiten des Schlussfolgerns gezeigt, insbesondere durch das Skalieren zur Inferenzzeit, wie es von Modellen wie OpenAI's o1 veranschaulicht wird. Allerdings haben aktuelle Vision-Sprachmodelle (VLMs) oft Schwierigkeiten, systematisches und strukturiertes Schlussfolgern durchzuführen, insbesondere bei der Bewältigung komplexer visueller Frage-Antwort-Aufgaben. In dieser Arbeit stellen wir LLaVA-o1 vor, ein neuartiges VLM, das für autonomes mehrstufiges Schlussfolgern konzipiert ist. Im Gegensatz zur Ketten-Denkanregung beschäftigt sich LLaVA-o1 eigenständig mit aufeinanderfolgenden Stufen der Zusammenfassung, visuellen Interpretation, logischen Schlussfolgerung und Schlussfolgerungsgenerierung. Dieser strukturierte Ansatz ermöglicht es LLaVA-o1, deutliche Verbesserungen in der Präzision bei schlussfolgerungsintensiven Aufgaben zu erzielen. Um dies zu erreichen, erstellen wir den LLaVA-o1-100k Datensatz, der Proben aus verschiedenen visuellen Frage-Antwort-Quellen integriert und strukturierte Schlussfolgerungsannotationen bereitstellt. Darüber hinaus schlagen wir eine Inferenzzeit-Stufen-Level-Beam-Suche-Methode vor, die eine effektive Skalierung zur Inferenzzeit ermöglicht. Bemerkenswert ist, dass LLaVA-o1 mit nur 100k Trainingsproben und einer einfachen, aber effektiven Methode zur Skalierung zur Inferenzzeit nicht nur sein Basismodell auf einer Vielzahl von multimodalen Schlussfolgerungs-Benchmarks um 8,9% übertrifft, sondern auch die Leistung größerer und sogar geschlossener Modelle wie Gemini-1.5-pro, GPT-4o-mini und Llama-3.2-90B-Vision-Instruct übertrifft.

English

Large language models have demonstrated substantial advancements in reasoning capabilities, particularly through inference-time scaling, as illustrated by models such as OpenAI's o1. However, current Vision-Language Models (VLMs) often struggle to perform systematic and structured reasoning, especially when handling complex visual question-answering tasks. In this work, we introduce LLaVA-o1, a novel VLM designed to conduct autonomous multistage reasoning. Unlike chain-of-thought prompting, LLaVA-o1 independently engages in sequential stages of summarization, visual interpretation, logical reasoning, and conclusion generation. This structured approach enables LLaVA-o1 to achieve marked improvements in precision on reasoning-intensive tasks. To accomplish this, we compile the LLaVA-o1-100k dataset, integrating samples from various visual question answering sources and providing structured reasoning annotations. Besides, we propose an inference-time stage-level beam search method, which enables effective inference-time scaling. Remarkably, with only 100k training samples and a simple yet effective inference time scaling method, LLaVA-o1 not only outperforms its base model by 8.9% on a wide range of multimodal reasoning benchmarks, but also surpasses the performance of larger and even closed-source models, such as Gemini-1.5-pro, GPT-4o-mini, and Llama-3.2-90B-Vision-Instruct.

LLaVA-o1: Lassen Sie Vision-Sprachmodelle Schritt für Schritt Schlussfolgerungen ziehen

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

Zusammenfassung

Support