LlamaV-o1: LLMにおける段階的ビジュアル推論の見直し
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
January 10, 2025
著者: Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan
cs.AI
要旨
推論は、特に視覚的文脈において複雑な多段階問題を解決するための基本的な能力であり、順次段階的な理解が不可欠です。既存のアプローチには、視覚的推論を評価する包括的なフレームワークが欠如しており、段階的問題解決が強調されていません。このため、我々は大規模言語モデル(LMMs)における段階的視覚推論を推進する包括的なフレームワークを提案します。そのために、3つの主要な貢献を行います。まず、マルチステップ推論タスクを評価するために特に設計された視覚推論ベンチマークを導入します。このベンチマークは、複数のステップを含む8つの異なるカテゴリの多様な課題を提示し、合計4,000以上の推論ステップを持ち、LLMsの正確で解釈可能な視覚推論能力を複数のステップでロバストに評価することが可能です。第二に、個々のステップの粒度で視覚推論の品質を評価する新しいメトリックを提案します。この提案されたメトリックは、従来のエンドタスクの精度メトリックと比較して、推論パフォーマンスに対するより深い洞察を提供します。第三に、新しいマルチモーダル視覚推論モデルであるLlamaV-o1を提案します。このモデルは、多段階カリキュラム学習アプローチを用いて訓練され、タスクが段階的に整理されて段階的なスキル獲得と問題解決を促進します。提案されたLlamaV-o1は、多段階推論向けに設計されており、構造化されたトレーニングパラダイムを通じて段階的に学習します。包括的な実験により、当社のLlamaV-o1が既存のオープンソースモデルを凌駕し、クローズソースのプロプライエタリモデルに対して有利なパフォーマンスを発揮することが示されました。Llava-CoTに比べ、当社のLlamaV-o1は、6つのベンチマーク全体で平均スコア67.3を達成し、推論スケーリング時に5倍高速です。当社のベンチマーク、モデル、コードは公開されています。
English
Reasoning is a fundamental capability for solving complex multi-step
problems, particularly in visual contexts where sequential step-wise
understanding is essential. Existing approaches lack a comprehensive framework
for evaluating visual reasoning and do not emphasize step-wise problem-solving.
To this end, we propose a comprehensive framework for advancing step-by-step
visual reasoning in large language models (LMMs) through three key
contributions. First, we introduce a visual reasoning benchmark specifically
designed to evaluate multi-step reasoning tasks. The benchmark presents a
diverse set of challenges with eight different categories ranging from complex
visual perception to scientific reasoning with over 4k reasoning steps in
total, enabling robust evaluation of LLMs' abilities to perform accurate and
interpretable visual reasoning across multiple steps. Second, we propose a
novel metric that assesses visual reasoning quality at the granularity of
individual steps, emphasizing both correctness and logical coherence. The
proposed metric offers deeper insights into reasoning performance compared to
traditional end-task accuracy metrics. Third, we present a new multimodal
visual reasoning model, named LlamaV-o1, trained using a multi-step curriculum
learning approach, where tasks are progressively organized to facilitate
incremental skill acquisition and problem-solving. The proposed LlamaV-o1 is
designed for multi-step reasoning and learns step-by-step through a structured
training paradigm. Extensive experiments show that our LlamaV-o1 outperforms
existing open-source models and performs favorably against close-source
proprietary models. Compared to the recent Llava-CoT, our LlamaV-o1 achieves an
average score of 67.3 with an absolute gain of 3.8\% across six benchmarks
while being 5 times faster during inference scaling. Our benchmark, model, and
code are publicly available.Summary
AI-Generated Summary