LlamaV-o1: Repensando o Raciocínio Visual Passo a Passo em LLMs
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
January 10, 2025
Autores: Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan
cs.AI
Resumo
O raciocínio é uma capacidade fundamental para resolver problemas complexos de vários passos, especialmente em contextos visuais onde a compreensão sequencial passo a passo é essencial. As abordagens existentes carecem de um quadro abrangente para avaliar o raciocínio visual e não enfatizam a resolução de problemas passo a passo. Para isso, propomos um quadro abrangente para avançar o raciocínio visual passo a passo em grandes modelos de linguagem (LMMs) por meio de três contribuições-chave. Primeiramente, introduzimos um benchmark de raciocínio visual especificamente projetado para avaliar tarefas de raciocínio de vários passos. O benchmark apresenta um conjunto diversificado de desafios com oito categorias diferentes, que vão desde percepção visual complexa até raciocínio científico, com mais de 4 mil etapas de raciocínio no total, possibilitando uma avaliação robusta das habilidades dos LLMs para realizar raciocínio visual preciso e interpretável em vários passos. Em segundo lugar, propomos uma métrica inovadora que avalia a qualidade do raciocínio visual na granularidade de passos individuais, enfatizando tanto a correção quanto a coerência lógica. A métrica proposta oferece insights mais profundos sobre o desempenho de raciocínio em comparação com métricas tradicionais de precisão de tarefas finais. Em terceiro lugar, apresentamos um novo modelo de raciocínio visual multimodal, chamado LlamaV-o1, treinado usando uma abordagem de aprendizado de currículo de vários passos, onde as tarefas são progressivamente organizadas para facilitar a aquisição incremental de habilidades e a resolução de problemas. O LlamaV-o1 proposto é projetado para raciocínio de vários passos e aprende passo a passo por meio de um paradigma de treinamento estruturado. Experimentos extensivos mostram que nosso LlamaV-o1 supera modelos de código aberto existentes e se sai favoravelmente em comparação com modelos proprietários de código fechado. Em comparação com o recente Llava-CoT, nosso LlamaV-o1 alcança uma pontuação média de 67,3 com um ganho absoluto de 3,8\% em seis benchmarks, sendo 5 vezes mais rápido durante a escalabilidade da inferência. Nosso benchmark, modelo e código estão disponíveis publicamente.
English
Reasoning is a fundamental capability for solving complex multi-step
problems, particularly in visual contexts where sequential step-wise
understanding is essential. Existing approaches lack a comprehensive framework
for evaluating visual reasoning and do not emphasize step-wise problem-solving.
To this end, we propose a comprehensive framework for advancing step-by-step
visual reasoning in large language models (LMMs) through three key
contributions. First, we introduce a visual reasoning benchmark specifically
designed to evaluate multi-step reasoning tasks. The benchmark presents a
diverse set of challenges with eight different categories ranging from complex
visual perception to scientific reasoning with over 4k reasoning steps in
total, enabling robust evaluation of LLMs' abilities to perform accurate and
interpretable visual reasoning across multiple steps. Second, we propose a
novel metric that assesses visual reasoning quality at the granularity of
individual steps, emphasizing both correctness and logical coherence. The
proposed metric offers deeper insights into reasoning performance compared to
traditional end-task accuracy metrics. Third, we present a new multimodal
visual reasoning model, named LlamaV-o1, trained using a multi-step curriculum
learning approach, where tasks are progressively organized to facilitate
incremental skill acquisition and problem-solving. The proposed LlamaV-o1 is
designed for multi-step reasoning and learns step-by-step through a structured
training paradigm. Extensive experiments show that our LlamaV-o1 outperforms
existing open-source models and performs favorably against close-source
proprietary models. Compared to the recent Llava-CoT, our LlamaV-o1 achieves an
average score of 67.3 with an absolute gain of 3.8\% across six benchmarks
while being 5 times faster during inference scaling. Our benchmark, model, and
code are publicly available.Summary
AI-Generated Summary