MIA-DPO : Optimisation des Préférences Directes Augmentées Multi-Images pour les Grands Modèles Vision- Langage
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
October 23, 2024
Auteurs: Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
Résumé
L'alignement des préférences visuelles consiste à entraîner de grands modèles vision-langage (LVLM) à prédire les préférences humaines entre des entrées visuelles. Cela est généralement réalisé en utilisant des ensembles de données étiquetés de paires choisies/rejetées et en employant des algorithmes d'optimisation tels que l'optimisation directe des préférences (DPO). Les méthodes d'alignement visuel existantes, principalement conçues pour des scénarios d'image unique, ont du mal à gérer efficacement la complexité des tâches multi-images en raison de la rareté des données d'entraînement diverses et du coût élevé de l'annotation des paires choisies/rejetées. Nous présentons l'Optimisation Directe des Préférences Augmentée Multi-Images (MIA-DPO), une approche d'alignement des préférences visuelles qui gère efficacement les entrées multi-images. MIA-DPO atténue la rareté des données d'entraînement multi-images diverses en étendant les données d'image unique avec des images non apparentées disposées en collages de grilles ou en formats image dans l'image, réduisant significativement les coûts associés aux annotations de données multi-images. Notre observation révèle que les valeurs d'attention des LVLM varient considérablement d'une image à l'autre. Nous utilisons les valeurs d'attention pour identifier et filtrer les réponses rejetées sur lesquelles le modèle aurait pu se concentrer par erreur. Notre sélection consciente de l'attention pour construire les paires choisies/rejetées sans recourir à (i) une annotation humaine, (ii) des données supplémentaires, et (iii) des modèles ou API externes. MIA-DPO est compatible avec diverses architectures et surpasse les méthodes existantes sur cinq référentiels multi-images, obtenant une amélioration de performance moyenne de 3,0% sur LLaVA-v1.5 et de 4,3% sur le récent InternLM-XC2.5. De plus, MIA-DPO a un effet minimal sur la capacité du modèle à comprendre des images uniques.
English
Visual preference alignment involves training Large Vision-Language Models
(LVLMs) to predict human preferences between visual inputs. This is typically
achieved by using labeled datasets of chosen/rejected pairs and employing
optimization algorithms like direct preference optimization (DPO). Existing
visual alignment methods, primarily designed for single-image scenarios,
struggle to effectively handle the complexity of multi-image tasks due to the
scarcity of diverse training data and the high cost of annotating
chosen/rejected pairs. We present Multi-Image Augmented Direct Preference
Optimization (MIA-DPO), a visual preference alignment approach that effectively
handles multi-image inputs. MIA-DPO mitigates the scarcity of diverse
multi-image training data by extending single-image data with unrelated images
arranged in grid collages or pic-in-pic formats, significantly reducing the
costs associated with multi-image data annotations. Our observation reveals
that attention values of LVLMs vary considerably across different images. We
use attention values to identify and filter out rejected responses the model
may have mistakenly focused on. Our attention-aware selection for constructing
the chosen/rejected pairs without relying on (i) human annotation, (ii) extra
data, and (iii) external models or APIs. MIA-DPO is compatible with various
architectures and outperforms existing methods on five multi-image benchmarks,
achieving an average performance boost of 3.0% on LLaVA-v1.5 and 4.3% on the
recent InternLM-XC2.5. Moreover, MIA-DPO has a minimal effect on the model's
ability to understand single images.Summary
AI-Generated Summary