Améliorer la capacité de raisonnement des grands modèles de langage multimodaux via l'optimisation des préférences mixtes
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization
November 15, 2024
Auteurs: Weiyun Wang, Zhe Chen, Wenhai Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Jinguo Zhu, Xizhou Zhu, Lewei Lu, Yu Qiao, Jifeng Dai
cs.AI
Résumé
Les modèles de langage multimodaux larges open-source (MLLMs) existants suivent généralement un processus d'entraînement impliquant la pré-formation et le fine-tuning supervisé. Cependant, ces modèles souffrent de décalages de distribution, ce qui limite leur raisonnement multimodal, en particulier dans les performances de Chaîne de Pensée (CoT). Pour remédier à cela, nous introduisons un processus d'optimisation de préférences (PO) pour améliorer les capacités de raisonnement multimodal des MLLMs. Plus précisément, (1) du côté des données, nous concevons un pipeline de construction de données de préférences automatisé pour créer MMPR, un ensemble de données de préférences de raisonnement multimodal de haute qualité et à grande échelle, et (2) du côté du modèle, nous explorons l'intégration de PO avec les MLLMs, en développant une méthode simple mais efficace, appelée Optimisation de Préférences Mixtes (MPO), qui améliore les performances multimodales de CoT. Notre approche démontre des performances améliorées sur plusieurs benchmarks, en particulier dans les tâches de raisonnement multimodal. Notamment, notre modèle, InternVL2-8B-MPO, atteint une précision de 67,0 sur MathVista, surpassant InternVL2-8B de 8,7 points et atteignant des performances comparables à celles d'InternVL2-76B, qui est 10 fois plus grand. Nous espérons que cette étude pourra inspirer de nouvelles avancées dans les MLLMs. Le code, les données et le modèle seront publiés publiquement.
English
Existing open-source multimodal large language models (MLLMs) generally
follow a training process involving pre-training and supervised fine-tuning.
However, these models suffer from distribution shifts, which limit their
multimodal reasoning, particularly in the Chain-of-Thought (CoT) performance.
To address this, we introduce a preference optimization (PO) process to enhance
the multimodal reasoning capabilities of MLLMs. Specifically, (1) on the data
side, we design an automated preference data construction pipeline to create
MMPR, a high-quality, large-scale multimodal reasoning preference dataset. and
(2) on the model side, we explore integrating PO with MLLMs, developing a
simple yet effective method, termed Mixed Preference Optimization (MPO), which
boosts multimodal CoT performance. Our approach demonstrates improved
performance across multiple benchmarks, particularly in multimodal reasoning
tasks. Notably, our model, InternVL2-8B-MPO, achieves an accuracy of 67.0 on
MathVista, outperforming InternVL2-8B by 8.7 points and achieving performance
comparable to the 10x larger InternVL2-76B. We hope this study could inspire
further advancements in MLLMs. Code, data, and model shall be publicly
released.Summary
AI-Generated Summary