LlamaV-o1: Riconsiderazione del Ragionamento Visivo Passo dopo Passo in LLM
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
January 10, 2025
Autori: Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan
cs.AI
Abstract
Il ragionamento è una capacità fondamentale per risolvere problemi complessi a più passaggi, in particolare in contesti visivi dove la comprensione sequenziale passo dopo passo è essenziale. Gli approcci esistenti mancano di un quadro completo per valutare il ragionamento visivo e non enfatizzano la risoluzione dei problemi passo dopo passo. A questo scopo, proponiamo un quadro completo per far progredire il ragionamento visivo passo dopo passo nei grandi modelli linguistici (LMMs) attraverso tre contributi chiave. In primo luogo, introduciamo un benchmark di ragionamento visivo appositamente progettato per valutare compiti di ragionamento a più passaggi. Il benchmark presenta una serie diversificata di sfide con otto diverse categorie che vanno dalla percezione visiva complessa al ragionamento scientifico con oltre 4k passaggi di ragionamento in totale, consentendo una valutazione robusta delle capacità dei LLMs di eseguire un ragionamento visivo accurato e interpretabile attraverso più passaggi. In secondo luogo, proponiamo una nuova metrica che valuta la qualità del ragionamento visivo alla granularità dei singoli passaggi, enfatizzando sia la correttezza che la coerenza logica. La metrica proposta offre approfondimenti più dettagliati sulle prestazioni di ragionamento rispetto alle tradizionali metriche di accuratezza del compito finale. In terzo luogo, presentiamo un nuovo modello di ragionamento visivo multimodale, chiamato LlamaV-o1, addestrato utilizzando un approccio di apprendimento curricolare a più passaggi, dove i compiti sono progressivamente organizzati per facilitare l'acquisizione graduale di abilità e la risoluzione dei problemi. Il LlamaV-o1 proposto è progettato per il ragionamento a più passaggi e apprende passo dopo passo attraverso un paradigma di addestramento strutturato. Estesi esperimenti mostrano che il nostro LlamaV-o1 supera i modelli open-source esistenti e si comporta in modo favorevole rispetto ai modelli proprietari close-source. Rispetto al recente Llava-CoT, il nostro LlamaV-o1 raggiunge un punteggio medio del 67,3 con un guadagno assoluto del 3,8\% su sei benchmark mentre è 5 volte più veloce durante la scalabilità dell'inferenza. Il nostro benchmark, modello e codice sono disponibili pubblicamente.
English
Reasoning is a fundamental capability for solving complex multi-step
problems, particularly in visual contexts where sequential step-wise
understanding is essential. Existing approaches lack a comprehensive framework
for evaluating visual reasoning and do not emphasize step-wise problem-solving.
To this end, we propose a comprehensive framework for advancing step-by-step
visual reasoning in large language models (LMMs) through three key
contributions. First, we introduce a visual reasoning benchmark specifically
designed to evaluate multi-step reasoning tasks. The benchmark presents a
diverse set of challenges with eight different categories ranging from complex
visual perception to scientific reasoning with over 4k reasoning steps in
total, enabling robust evaluation of LLMs' abilities to perform accurate and
interpretable visual reasoning across multiple steps. Second, we propose a
novel metric that assesses visual reasoning quality at the granularity of
individual steps, emphasizing both correctness and logical coherence. The
proposed metric offers deeper insights into reasoning performance compared to
traditional end-task accuracy metrics. Third, we present a new multimodal
visual reasoning model, named LlamaV-o1, trained using a multi-step curriculum
learning approach, where tasks are progressively organized to facilitate
incremental skill acquisition and problem-solving. The proposed LlamaV-o1 is
designed for multi-step reasoning and learns step-by-step through a structured
training paradigm. Extensive experiments show that our LlamaV-o1 outperforms
existing open-source models and performs favorably against close-source
proprietary models. Compared to the recent Llava-CoT, our LlamaV-o1 achieves an
average score of 67.3 with an absolute gain of 3.8\% across six benchmarks
while being 5 times faster during inference scaling. Our benchmark, model, and
code are publicly available.Summary
AI-Generated Summary