혼합 선호도 최적화를 통해 다중 모달 대형 언어 모델의 추론 능력 향상
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization
November 15, 2024
저자: Weiyun Wang, Zhe Chen, Wenhai Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Jinguo Zhu, Xizhou Zhu, Lewei Lu, Yu Qiao, Jifeng Dai
cs.AI
초록
기존 오픈 소스 다중 모달 대형 언어 모델 (MLLMs)은 일반적으로 사전 훈련과 지도된 세밀 조정을 포함하는 교육 과정을 따릅니다. 그러나 이러한 모델들은 분포 변화로 인해 다중 모달 추론, 특히 Chain-of-Thought (CoT) 성능에 제약을 받습니다. 이를 해결하기 위해 우리는 MLLMs의 다중 모달 추론 능력을 향상시키기 위해 선호도 최적화 (PO) 과정을 도입합니다. 구체적으로 (1) 데이터 측면에서 우리는 고품질 대규모 다중 모달 추론 선호 데이터 집합 MMPR을 만들기 위한 자동 선호 데이터 구축 파이프라인을 설계하고, (2) 모델 측면에서는 PO를 MLLMs와 통합하고, Mixed Preference Optimization (MPO)라는 간단하면서 효과적인 방법을 개발하여 다중 모달 CoT 성능을 향상시킵니다. 우리의 접근 방식은 다중 벤치마크에서 향상된 성능을 보여주며, 특히 다중 모달 추론 작업에서 두드러진 성과를 보입니다. 특히, InternVL2-8B-MPO라는 우리의 모델은 MathVista에서 67.0의 정확도를 달성하여 InternVL2-8B보다 8.7 포인트 우수하며 10배 더 큰 InternVL2-76B와 유사한 성능을 달성합니다. 이 연구가 MLLMs의 더 나은 발전을 일으킬 수 있기를 희망합니다. 코드, 데이터 및 모델은 공개적으로 공개될 것입니다.
English
Existing open-source multimodal large language models (MLLMs) generally
follow a training process involving pre-training and supervised fine-tuning.
However, these models suffer from distribution shifts, which limit their
multimodal reasoning, particularly in the Chain-of-Thought (CoT) performance.
To address this, we introduce a preference optimization (PO) process to enhance
the multimodal reasoning capabilities of MLLMs. Specifically, (1) on the data
side, we design an automated preference data construction pipeline to create
MMPR, a high-quality, large-scale multimodal reasoning preference dataset. and
(2) on the model side, we explore integrating PO with MLLMs, developing a
simple yet effective method, termed Mixed Preference Optimization (MPO), which
boosts multimodal CoT performance. Our approach demonstrates improved
performance across multiple benchmarks, particularly in multimodal reasoning
tasks. Notably, our model, InternVL2-8B-MPO, achieves an accuracy of 67.0 on
MathVista, outperforming InternVL2-8B by 8.7 points and achieving performance
comparable to the 10x larger InternVL2-76B. We hope this study could inspire
further advancements in MLLMs. Code, data, and model shall be publicly
released.Summary
AI-Generated Summary