Insight-V: Esplorazione della Ragionamento Visivo a Lungo Raggio con Modelli Linguistici Multimodali di Grandi Dimensioni
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
November 21, 2024
Autori: Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu
cs.AI
Abstract
I Large Language Models (LLM) dimostrano capacità e affidabilità avanzate ragionando di più, evolvendo dalla sollecitazione Chain-of-Thought a soluzioni a livello di prodotto come OpenAI o1. Nonostante vari sforzi per migliorare il ragionamento di LLM, i dati di ragionamento a catena lunga di alta qualità e i flussi di addestramento ottimizzati rimangono ancora insufficientemente esplorati nei compiti visione-linguaggio. In questo articolo, presentiamo Insight-V, un primo sforzo per 1) produrre in modo scalabile dati di ragionamento lunghi e robusti per compiti multi-modalità complessi, e 2) un efficace flusso di addestramento per potenziare le capacità di ragionamento dei grandi modelli di linguaggio multi-modalità (MLLM). In particolare, per creare dati di ragionamento lunghi e strutturati senza lavoro umano, progettiamo un flusso di lavoro a due fasi con una strategia progressiva per generare percorsi di ragionamento sufficientemente lunghi e diversificati e un metodo di valutazione multi-granularità per garantire la qualità dei dati. Osserviamo che supervisionare direttamente MLLM con dati di ragionamento così lunghi e complessi non porterà a capacità di ragionamento ideali. Per affrontare questo problema, progettiamo un sistema multi-agente composto da un agente di ragionamento dedicato a eseguire ragionamenti a catena lunga e un agente di sintesi addestrato a valutare e riassumere i risultati del ragionamento. Incorporiamo inoltre un algoritmo DPO iterativo per potenziare la stabilità e la qualità di generazione dell'agente di ragionamento. Basandoci sul popolare modello LLaVA-NeXT e sul nostro solido MLLM di base, dimostriamo significativi miglioramenti delle prestazioni su sfide multi-modalità che richiedono ragionamento visivo. Beneficiando del nostro sistema multi-agente, Insight-V può anche mantenere o migliorare facilmente le prestazioni su compiti multi-modalità focalizzati sulla percezione.
English
Large Language Models (LLMs) demonstrate enhanced capabilities and
reliability by reasoning more, evolving from Chain-of-Thought prompting to
product-level solutions like OpenAI o1. Despite various efforts to improve LLM
reasoning, high-quality long-chain reasoning data and optimized training
pipelines still remain inadequately explored in vision-language tasks. In this
paper, we present Insight-V, an early effort to 1) scalably produce long and
robust reasoning data for complex multi-modal tasks, and 2) an effective
training pipeline to enhance the reasoning capabilities of multi-modal large
language models (MLLMs). Specifically, to create long and structured reasoning
data without human labor, we design a two-step pipeline with a progressive
strategy to generate sufficiently long and diverse reasoning paths and a
multi-granularity assessment method to ensure data quality. We observe that
directly supervising MLLMs with such long and complex reasoning data will not
yield ideal reasoning ability. To tackle this problem, we design a multi-agent
system consisting of a reasoning agent dedicated to performing long-chain
reasoning and a summary agent trained to judge and summarize reasoning results.
We further incorporate an iterative DPO algorithm to enhance the reasoning
agent's generation stability and quality. Based on the popular LLaVA-NeXT model
and our stronger base MLLM, we demonstrate significant performance gains across
challenging multi-modal benchmarks requiring visual reasoning. Benefiting from
our multi-agent system, Insight-V can also easily maintain or improve
performance on perception-focused multi-modal tasks.Summary
AI-Generated Summary