Insight-V: Esplorazione della Ragionamento Visivo a Lungo Raggio con Modelli Linguistici Multimodali di Grandi Dimensioni

Abstract

I Large Language Models (LLM) dimostrano capacità e affidabilità avanzate ragionando di più, evolvendo dalla sollecitazione Chain-of-Thought a soluzioni a livello di prodotto come OpenAI o1. Nonostante vari sforzi per migliorare il ragionamento di LLM, i dati di ragionamento a catena lunga di alta qualità e i flussi di addestramento ottimizzati rimangono ancora insufficientemente esplorati nei compiti visione-linguaggio. In questo articolo, presentiamo Insight-V, un primo sforzo per 1) produrre in modo scalabile dati di ragionamento lunghi e robusti per compiti multi-modalità complessi, e 2) un efficace flusso di addestramento per potenziare le capacità di ragionamento dei grandi modelli di linguaggio multi-modalità (MLLM). In particolare, per creare dati di ragionamento lunghi e strutturati senza lavoro umano, progettiamo un flusso di lavoro a due fasi con una strategia progressiva per generare percorsi di ragionamento sufficientemente lunghi e diversificati e un metodo di valutazione multi-granularità per garantire la qualità dei dati. Osserviamo che supervisionare direttamente MLLM con dati di ragionamento così lunghi e complessi non porterà a capacità di ragionamento ideali. Per affrontare questo problema, progettiamo un sistema multi-agente composto da un agente di ragionamento dedicato a eseguire ragionamenti a catena lunga e un agente di sintesi addestrato a valutare e riassumere i risultati del ragionamento. Incorporiamo inoltre un algoritmo DPO iterativo per potenziare la stabilità e la qualità di generazione dell'agente di ragionamento. Basandoci sul popolare modello LLaVA-NeXT e sul nostro solido MLLM di base, dimostriamo significativi miglioramenti delle prestazioni su sfide multi-modalità che richiedono ragionamento visivo. Beneficiando del nostro sistema multi-agente, Insight-V può anche mantenere o migliorare facilmente le prestazioni su compiti multi-modalità focalizzati sulla percezione.

English

Large Language Models (LLMs) demonstrate enhanced capabilities and reliability by reasoning more, evolving from Chain-of-Thought prompting to product-level solutions like OpenAI o1. Despite various efforts to improve LLM reasoning, high-quality long-chain reasoning data and optimized training pipelines still remain inadequately explored in vision-language tasks. In this paper, we present Insight-V, an early effort to 1) scalably produce long and robust reasoning data for complex multi-modal tasks, and 2) an effective training pipeline to enhance the reasoning capabilities of multi-modal large language models (MLLMs). Specifically, to create long and structured reasoning data without human labor, we design a two-step pipeline with a progressive strategy to generate sufficiently long and diverse reasoning paths and a multi-granularity assessment method to ensure data quality. We observe that directly supervising MLLMs with such long and complex reasoning data will not yield ideal reasoning ability. To tackle this problem, we design a multi-agent system consisting of a reasoning agent dedicated to performing long-chain reasoning and a summary agent trained to judge and summarize reasoning results. We further incorporate an iterative DPO algorithm to enhance the reasoning agent's generation stability and quality. Based on the popular LLaVA-NeXT model and our stronger base MLLM, we demonstrate significant performance gains across challenging multi-modal benchmarks requiring visual reasoning. Benefiting from our multi-agent system, Insight-V can also easily maintain or improve performance on perception-focused multi-modal tasks.

Insight-V: Esplorazione della Ragionamento Visivo a Lungo Raggio con Modelli Linguistici Multimodali di Grandi Dimensioni

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

Abstract

Support