Améliorer la capacité de raisonnement des grands modèles de langage multimodaux via l'optimisation des préférences mixtes

Résumé

Les modèles de langage multimodaux larges open-source (MLLMs) existants suivent généralement un processus d'entraînement impliquant la pré-formation et le fine-tuning supervisé. Cependant, ces modèles souffrent de décalages de distribution, ce qui limite leur raisonnement multimodal, en particulier dans les performances de Chaîne de Pensée (CoT). Pour remédier à cela, nous introduisons un processus d'optimisation de préférences (PO) pour améliorer les capacités de raisonnement multimodal des MLLMs. Plus précisément, (1) du côté des données, nous concevons un pipeline de construction de données de préférences automatisé pour créer MMPR, un ensemble de données de préférences de raisonnement multimodal de haute qualité et à grande échelle, et (2) du côté du modèle, nous explorons l'intégration de PO avec les MLLMs, en développant une méthode simple mais efficace, appelée Optimisation de Préférences Mixtes (MPO), qui améliore les performances multimodales de CoT. Notre approche démontre des performances améliorées sur plusieurs benchmarks, en particulier dans les tâches de raisonnement multimodal. Notamment, notre modèle, InternVL2-8B-MPO, atteint une précision de 67,0 sur MathVista, surpassant InternVL2-8B de 8,7 points et atteignant des performances comparables à celles d'InternVL2-76B, qui est 10 fois plus grand. Nous espérons que cette étude pourra inspirer de nouvelles avancées dans les MLLMs. Le code, les données et le modèle seront publiés publiquement.

English

Existing open-source multimodal large language models (MLLMs) generally follow a training process involving pre-training and supervised fine-tuning. However, these models suffer from distribution shifts, which limit their multimodal reasoning, particularly in the Chain-of-Thought (CoT) performance. To address this, we introduce a preference optimization (PO) process to enhance the multimodal reasoning capabilities of MLLMs. Specifically, (1) on the data side, we design an automated preference data construction pipeline to create MMPR, a high-quality, large-scale multimodal reasoning preference dataset. and (2) on the model side, we explore integrating PO with MLLMs, developing a simple yet effective method, termed Mixed Preference Optimization (MPO), which boosts multimodal CoT performance. Our approach demonstrates improved performance across multiple benchmarks, particularly in multimodal reasoning tasks. Notably, our model, InternVL2-8B-MPO, achieves an accuracy of 67.0 on MathVista, outperforming InternVL2-8B by 8.7 points and achieving performance comparable to the 10x larger InternVL2-76B. We hope this study could inspire further advancements in MLLMs. Code, data, and model shall be publicly released.

Améliorer la capacité de raisonnement des grands modèles de langage multimodaux via l'optimisation des préférences mixtes

Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

Résumé

Support