Inzicht-V: Het verkennen van langketenige visuele redenering met multimodale grote taalmodellen
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
November 21, 2024
Auteurs: Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) tonen verbeterde mogelijkheden en betrouwbaarheid door meer redeneringen uit te voeren, evoluerend van keten-van-gedachten prompts naar oplossingen op productniveau zoals OpenAI o1. Ondanks diverse inspanningen om de redeneervaardigheden van LLM's te verbeteren, blijven hoogwaardige gegevens voor langdurige redeneringen en geoptimaliseerde trainingspijplijnen nog onvoldoende verkend in visueel-talige taken. In dit artikel presenteren we Insight-V, een vroeg initiatief om 1) op schaal langdurige en robuuste redeneergegevens te produceren voor complexe multimodale taken, en 2) een effectieve trainingspijplijn om de redeneermogelijkheden van multimodale grote taalmodellen (MLLM's) te verbeteren. Specifiek, om langdurige en gestructureerde redeneergegevens te creëren zonder menselijke arbeid, ontwerpen we een tweestapspijplijn met een progressieve strategie om voldoende lange en diverse redeneerpaden te genereren en een methode voor multi-granulariteitsevaluatie om de gegevenskwaliteit te waarborgen. We merken op dat het rechtstreeks toezicht houden op MLLM's met dergelijke lange en complexe redeneergegevens niet zal leiden tot ideale redeneervaardigheid. Om dit probleem aan te pakken, ontwerpen we een multi-agent systeem bestaande uit een redeneeragent die zich toelegt op het uitvoeren van langdurige redeneringen en een samenvattingsagent die getraind is om redeneerresultaten te beoordelen en samen te vatten. We voegen verder een iteratief DPO-algoritme toe om de generatiestabiliteit en kwaliteit van de redeneeragent te verbeteren. Gebaseerd op het populaire LLaVA-NeXT model en ons krachtigere basis MLLM, tonen we aanzienlijke prestatieverbeteringen over uitdagende multimodale benchmarks die visuele redenering vereisen. Dankzij ons multi-agent systeem kan Insight-V ook eenvoudig de prestaties handhaven of verbeteren bij perceptiegerichte multimodale taken.
English
Large Language Models (LLMs) demonstrate enhanced capabilities and
reliability by reasoning more, evolving from Chain-of-Thought prompting to
product-level solutions like OpenAI o1. Despite various efforts to improve LLM
reasoning, high-quality long-chain reasoning data and optimized training
pipelines still remain inadequately explored in vision-language tasks. In this
paper, we present Insight-V, an early effort to 1) scalably produce long and
robust reasoning data for complex multi-modal tasks, and 2) an effective
training pipeline to enhance the reasoning capabilities of multi-modal large
language models (MLLMs). Specifically, to create long and structured reasoning
data without human labor, we design a two-step pipeline with a progressive
strategy to generate sufficiently long and diverse reasoning paths and a
multi-granularity assessment method to ensure data quality. We observe that
directly supervising MLLMs with such long and complex reasoning data will not
yield ideal reasoning ability. To tackle this problem, we design a multi-agent
system consisting of a reasoning agent dedicated to performing long-chain
reasoning and a summary agent trained to judge and summarize reasoning results.
We further incorporate an iterative DPO algorithm to enhance the reasoning
agent's generation stability and quality. Based on the popular LLaVA-NeXT model
and our stronger base MLLM, we demonstrate significant performance gains across
challenging multi-modal benchmarks requiring visual reasoning. Benefiting from
our multi-agent system, Insight-V can also easily maintain or improve
performance on perception-focused multi-modal tasks.Summary
AI-Generated Summary