LlamaV-o1: Überdenken der schrittweisen visuellen Schlussfolgerung in LLMs
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
January 10, 2025
Autoren: Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan
cs.AI
Zusammenfassung
Das Schlussfolgern ist eine grundlegende Fähigkeit zur Lösung komplexer mehrstufiger Probleme, insbesondere in visuellen Kontexten, in denen ein sequentielles schrittweises Verständnis unerlässlich ist. Bestehende Ansätze fehlen ein umfassendes Rahmenwerk zur Bewertung visueller Schlussfolgerungen und betonen nicht das schrittweise Problemlösen. Zu diesem Zweck schlagen wir ein umfassendes Rahmenwerk zur Förderung schrittweiser visueller Schlussfolgerungen in großen Sprachmodellen (LMMs) durch drei Schlüsselbeiträge vor. Erstens führen wir einen visuellen Schlussfolgerungs-Benchmark ein, der speziell zur Bewertung mehrstufiger Schlussfolgerungsaufgaben entwickelt wurde. Der Benchmark präsentiert eine vielfältige Reihe von Herausforderungen mit acht verschiedenen Kategorien, die von komplexer visueller Wahrnehmung bis zu wissenschaftlichem Schlussfolgern reichen und insgesamt über 4k Schlussfolgerungsschritte umfassen, was eine robuste Bewertung der Fähigkeiten von LLMs ermöglicht, genaue und interpretierbare visuelle Schlussfolgerungen über mehrere Schritte hinweg durchzuführen. Zweitens schlagen wir eine neue Metrik vor, die die Qualität visueller Schlussfolgerungen auf der Ebene einzelner Schritte bewertet und sowohl Korrektheit als auch logische Kohärenz betont. Die vorgeschlagene Metrik bietet tiefere Einblicke in die Schlussfolgerungsleistung im Vergleich zu traditionellen Genauigkeitsmetriken für Endaufgaben. Drittens präsentieren wir ein neues multimodales visuelles Schlussfolgerungsmodell namens LlamaV-o1, das mit einem mehrstufigen Curriculum-Learning-Ansatz trainiert wurde, bei dem Aufgaben progressiv organisiert werden, um inkrementelles Erlernen von Fähigkeiten und Problemlösungen zu erleichtern. Das vorgeschlagene LlamaV-o1 ist für mehrstufige Schlussfolgerungen konzipiert und lernt schrittweise durch ein strukturiertes Trainingsparadigma. Umfangreiche Experimente zeigen, dass unser LlamaV-o1 bestehende Open-Source-Modelle übertrifft und sich vorteilhaft gegenüber Closed-Source-eigenen Modellen verhält. Im Vergleich zum kürzlich veröffentlichten Llava-CoT erreicht unser LlamaV-o1 einen durchschnittlichen Score von 67,3 mit einem absoluten Gewinn von 3,8\% über sechs Benchmarks, während es beim Skalieren der Inferenz 5-mal schneller ist. Unser Benchmark, Modell und Code sind öffentlich verfügbar.
English
Reasoning is a fundamental capability for solving complex multi-step
problems, particularly in visual contexts where sequential step-wise
understanding is essential. Existing approaches lack a comprehensive framework
for evaluating visual reasoning and do not emphasize step-wise problem-solving.
To this end, we propose a comprehensive framework for advancing step-by-step
visual reasoning in large language models (LMMs) through three key
contributions. First, we introduce a visual reasoning benchmark specifically
designed to evaluate multi-step reasoning tasks. The benchmark presents a
diverse set of challenges with eight different categories ranging from complex
visual perception to scientific reasoning with over 4k reasoning steps in
total, enabling robust evaluation of LLMs' abilities to perform accurate and
interpretable visual reasoning across multiple steps. Second, we propose a
novel metric that assesses visual reasoning quality at the granularity of
individual steps, emphasizing both correctness and logical coherence. The
proposed metric offers deeper insights into reasoning performance compared to
traditional end-task accuracy metrics. Third, we present a new multimodal
visual reasoning model, named LlamaV-o1, trained using a multi-step curriculum
learning approach, where tasks are progressively organized to facilitate
incremental skill acquisition and problem-solving. The proposed LlamaV-o1 is
designed for multi-step reasoning and learns step-by-step through a structured
training paradigm. Extensive experiments show that our LlamaV-o1 outperforms
existing open-source models and performs favorably against close-source
proprietary models. Compared to the recent Llava-CoT, our LlamaV-o1 achieves an
average score of 67.3 with an absolute gain of 3.8\% across six benchmarks
while being 5 times faster during inference scaling. Our benchmark, model, and
code are publicly available.Summary
AI-Generated Summary