Insight-V : Exploration de la Raisonnement Visuel à Longue Chaîne avec des Modèles de Langage Multimodaux de Grande Taille
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
November 21, 2024
Auteurs: Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu
cs.AI
Résumé
Les grands modèles de langage (LLM) démontrent des capacités améliorées et une fiabilité accrue en raison d'un raisonnement plus poussé, passant de simples incitations en chaîne à des solutions de niveau produit telles que l'OpenAI o1. Malgré divers efforts pour améliorer le raisonnement des LLM, les données de raisonnement à longue chaîne de haute qualité et les pipelines d'entraînement optimisés restent encore insuffisamment explorés dans les tâches vision-langage. Dans cet article, nous présentons Insight-V, une première tentative visant à 1) produire de manière évolutive des données de raisonnement longues et robustes pour des tâches multimodales complexes, et 2) un pipeline d'entraînement efficace pour améliorer les capacités de raisonnement des grands modèles de langage multimodaux (MLLM). Plus précisément, pour créer des données de raisonnement longues et structurées sans recourir au travail humain, nous concevons un pipeline en deux étapes avec une stratégie progressive pour générer des chemins de raisonnement suffisamment longs et diversifiés, ainsi qu'une méthode d'évaluation multi-granulaire pour garantir la qualité des données. Nous constatons que superviser directement les MLLM avec de telles données de raisonnement longues et complexes ne permettra pas d'obtenir une capacité de raisonnement idéale. Pour résoudre ce problème, nous concevons un système multi-agent composé d'un agent de raisonnement dédié à la réalisation de raisonnements en chaîne longs et d'un agent de synthèse formé pour évaluer et résumer les résultats du raisonnement. Nous incorporons en outre un algorithme DPO itératif pour améliorer la stabilité et la qualité de génération de l'agent de raisonnement. En nous basant sur le modèle populaire LLaVA-NeXT et notre MLLM de base plus performant, nous démontrons des gains de performance significatifs sur des benchmarks multimodaux exigeant un raisonnement visuel complexe. Grâce à notre système multi-agent, Insight-V peut également facilement maintenir ou améliorer les performances sur des tâches multimodales axées sur la perception.
English
Large Language Models (LLMs) demonstrate enhanced capabilities and
reliability by reasoning more, evolving from Chain-of-Thought prompting to
product-level solutions like OpenAI o1. Despite various efforts to improve LLM
reasoning, high-quality long-chain reasoning data and optimized training
pipelines still remain inadequately explored in vision-language tasks. In this
paper, we present Insight-V, an early effort to 1) scalably produce long and
robust reasoning data for complex multi-modal tasks, and 2) an effective
training pipeline to enhance the reasoning capabilities of multi-modal large
language models (MLLMs). Specifically, to create long and structured reasoning
data without human labor, we design a two-step pipeline with a progressive
strategy to generate sufficiently long and diverse reasoning paths and a
multi-granularity assessment method to ensure data quality. We observe that
directly supervising MLLMs with such long and complex reasoning data will not
yield ideal reasoning ability. To tackle this problem, we design a multi-agent
system consisting of a reasoning agent dedicated to performing long-chain
reasoning and a summary agent trained to judge and summarize reasoning results.
We further incorporate an iterative DPO algorithm to enhance the reasoning
agent's generation stability and quality. Based on the popular LLaVA-NeXT model
and our stronger base MLLM, we demonstrate significant performance gains across
challenging multi-modal benchmarks requiring visual reasoning. Benefiting from
our multi-agent system, Insight-V can also easily maintain or improve
performance on perception-focused multi-modal tasks.Summary
AI-Generated Summary