인사이트-V: 다중 모달 대형 언어 모델을 활용한 장기 체인 시각 추론 탐구

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

November 21, 2024
저자: Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu
cs.AI

초록

대형 언어 모델(Large Language Models, LLMs)은 Chain-of-Thought 프롬프팅에서 OpenAI o1과 같은 제품 수준의 솔루션으로 진화함으로써 추론 능력과 신뢰성을 향상시키는 것을 보여줍니다. LLM 추론을 개선하기 위한 다양한 노력에도 불구하고, 시각-언어 작업에서 고품질의 장기 체인 추론 데이터와 최적화된 훈련 파이프라인은 여전히 충분히 탐구되지 않은 상태입니다. 본 논문에서는 복합 다중 모달 작업을 위해 장기적이고 견고한 추론 데이터를 확장 가능하게 생성하고, 다중 모달 대형 언어 모델(MLLMs)의 추론 능력을 향상시키기 위한 효과적인 훈련 파이프라인을 제시하는 Insight-V를 소개합니다. 구체적으로, 인간 노동 없이 긴 구조화된 추론 데이터를 생성하기 위해 진행적 전략으로 충분히 긴 다양한 추론 경로를 생성하고 데이터 품질을 보장하기 위한 다중 단계 평가 방법을 디자인한 두 단계 파이프라인을 설계합니다. 이러한 긴박하고 복잡한 추론 데이터로 MLLMs를 직접 감독하는 것은 이상적인 추론 능력을 얻지 못할 것임을 관찰합니다. 이 문제를 해결하기 위해 긴 체인 추론을 수행하는 추론 에이전트와 추론 결과를 판단하고 요약하는 요약 에이전트로 구성된 다중 에이전트 시스템을 디자인합니다. 또한 추론 에이전트의 생성 안정성과 품질을 향상시키기 위해 반복적 DPO 알고리즘을 통합합니다. 인기 있는 LLaVA-NeXT 모델과 강력한 기본 MLLM을 기반으로, Insight-V는 시각적 추론이 필요한 어려운 다중 모달 벤치마크에서 상당한 성능 향상을 보여줍니다. 다중 에이전트 시스템의 이점을 누리며, Insight-V는 인식 중심의 다중 모달 작업에서 성능을 유지하거나 향상시키기도 쉽습니다.
English
Large Language Models (LLMs) demonstrate enhanced capabilities and reliability by reasoning more, evolving from Chain-of-Thought prompting to product-level solutions like OpenAI o1. Despite various efforts to improve LLM reasoning, high-quality long-chain reasoning data and optimized training pipelines still remain inadequately explored in vision-language tasks. In this paper, we present Insight-V, an early effort to 1) scalably produce long and robust reasoning data for complex multi-modal tasks, and 2) an effective training pipeline to enhance the reasoning capabilities of multi-modal large language models (MLLMs). Specifically, to create long and structured reasoning data without human labor, we design a two-step pipeline with a progressive strategy to generate sufficiently long and diverse reasoning paths and a multi-granularity assessment method to ensure data quality. We observe that directly supervising MLLMs with such long and complex reasoning data will not yield ideal reasoning ability. To tackle this problem, we design a multi-agent system consisting of a reasoning agent dedicated to performing long-chain reasoning and a summary agent trained to judge and summarize reasoning results. We further incorporate an iterative DPO algorithm to enhance the reasoning agent's generation stability and quality. Based on the popular LLaVA-NeXT model and our stronger base MLLM, we demonstrate significant performance gains across challenging multi-modal benchmarks requiring visual reasoning. Benefiting from our multi-agent system, Insight-V can also easily maintain or improve performance on perception-focused multi-modal tasks.

Summary

AI-Generated Summary

PDF132November 22, 2024