Insight-V: Erforschung von Langketten-Visuellem Schlussfolgern mit Multimodalen Großen Sprachmodellen
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
November 21, 2024
Autoren: Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) zeigen verbesserte Fähigkeiten und Zuverlässigkeit, indem sie mehr überlegen, von Chain-of-Thought-Prompting zu Produktlösungen wie OpenAI o1 weiterentwickeln. Trotz verschiedener Bemühungen zur Verbesserung des Denkvermögens von LLMs bleiben hochwertige Daten für langkettiges Denken und optimierte Trainingspipelines in Vision-Sprach-Aufgaben noch unzureichend erforscht. In diesem Artikel präsentieren wir Insight-V, einen frühen Versuch, 1) skalierbar lange und robuste Daten für komplexe multimodale Aufgaben zu erzeugen und 2) eine effektive Trainingspipeline, um die Denkfähigkeiten von multimodalen großen Sprachmodellen (MLLMs) zu verbessern. Speziell zur Erstellung von langen und strukturierten Denkdaten ohne menschliche Arbeit entwerfen wir eine zweistufige Pipeline mit einer progressiven Strategie zur Generierung von ausreichend langen und vielfältigen Denkpfaden und einer Methode zur Bewertung auf mehreren Granularitätsebenen, um die Datenqualität sicherzustellen. Wir beobachten, dass das direkte Überwachen von MLLMs mit solchen langen und komplexen Denkdaten keine ideale Denkfähigkeit hervorbringen wird. Um dieses Problem anzugehen, entwerfen wir ein Multi-Agenten-System, bestehend aus einem Denk-Agenten, der sich auf langkettiges Denken spezialisiert, und einem Zusammenfassungs-Agenten, der darauf trainiert ist, Denkergebnisse zu bewerten und zusammenzufassen. Wir integrieren außerdem einen iterativen DPO-Algorithmus, um die Generationsstabilität und -qualität des Denk-Agenten zu verbessern. Basierend auf dem beliebten LLaVA-NeXT-Modell und unserem stärkeren Basis-MLLM zeigen wir signifikante Leistungssteigerungen bei anspruchsvollen multimodalen Benchmarks, die visuelles Denken erfordern. Durch unser Multi-Agenten-System kann Insight-V auch leicht die Leistung bei auf Wahrnehmung fokussierten multimodalen Aufgaben beibehalten oder verbessern.
English
Large Language Models (LLMs) demonstrate enhanced capabilities and
reliability by reasoning more, evolving from Chain-of-Thought prompting to
product-level solutions like OpenAI o1. Despite various efforts to improve LLM
reasoning, high-quality long-chain reasoning data and optimized training
pipelines still remain inadequately explored in vision-language tasks. In this
paper, we present Insight-V, an early effort to 1) scalably produce long and
robust reasoning data for complex multi-modal tasks, and 2) an effective
training pipeline to enhance the reasoning capabilities of multi-modal large
language models (MLLMs). Specifically, to create long and structured reasoning
data without human labor, we design a two-step pipeline with a progressive
strategy to generate sufficiently long and diverse reasoning paths and a
multi-granularity assessment method to ensure data quality. We observe that
directly supervising MLLMs with such long and complex reasoning data will not
yield ideal reasoning ability. To tackle this problem, we design a multi-agent
system consisting of a reasoning agent dedicated to performing long-chain
reasoning and a summary agent trained to judge and summarize reasoning results.
We further incorporate an iterative DPO algorithm to enhance the reasoning
agent's generation stability and quality. Based on the popular LLaVA-NeXT model
and our stronger base MLLM, we demonstrate significant performance gains across
challenging multi-modal benchmarks requiring visual reasoning. Benefiting from
our multi-agent system, Insight-V can also easily maintain or improve
performance on perception-focused multi-modal tasks.Summary
AI-Generated Summary