SymDPO : Amélioration de l'apprentissage en contexte des grands modèles multimodaux avec l'optimisation directe des préférences de démonstration symbolique.
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization
November 17, 2024
Auteurs: Hongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI
Résumé
À mesure que les modèles linguistiques continuent de s'agrandir, les Grands Modèles de Langage (GML) ont montré des capacités émergentes en Apprentissage en Contexte (AEC), leur permettant de résoudre des tâches linguistiques en préfixant quelques démonstrations en contexte (DEC) comme contexte. Inspirés par ces avancées, les chercheurs ont étendu ces techniques pour développer de Grands Modèles Multimodaux (GMM) avec des capacités d'AEC. Cependant, les GMM existants rencontrent un problème critique : ils échouent souvent à exploiter efficacement le contexte visuel dans les démonstrations multimodales et se contentent simplement de suivre des schémas textuels. Cela indique que les GMM ne parviennent pas à obtenir un alignement efficace entre les démonstrations multimodales et les sorties du modèle. Pour résoudre ce problème, nous proposons l'Optimisation Directe des Préférences de Démonstration Symbolique (SymDPO). Plus précisément, SymDPO vise à rompre avec le paradigme traditionnel de la construction des démonstrations multimodales en utilisant des symboles aléatoires pour remplacer les réponses textuelles au sein des instances. Cela force le modèle à comprendre attentivement les images de démonstration et à établir une relation entre les images et les symboles pour répondre correctement aux questions. Nous validons l'efficacité de cette méthode sur plusieurs référentiels, démontrant qu'avec SymDPO, les GMM peuvent comprendre de manière plus efficace le contexte multimodal au sein des exemples et utiliser ces connaissances pour répondre aux questions de manière plus précise.
English
As language models continue to scale, Large Language Models (LLMs) have
exhibited emerging capabilities in In-Context Learning (ICL), enabling them to
solve language tasks by prefixing a few in-context demonstrations (ICDs) as
context. Inspired by these advancements, researchers have extended these
techniques to develop Large Multimodal Models (LMMs) with ICL capabilities.
However, existing LMMs face a critical issue: they often fail to effectively
leverage the visual context in multimodal demonstrations and instead simply
follow textual patterns. This indicates that LMMs do not achieve effective
alignment between multimodal demonstrations and model outputs. To address this
problem, we propose Symbol Demonstration Direct Preference Optimization
(SymDPO). Specifically, SymDPO aims to break the traditional paradigm of
constructing multimodal demonstrations by using random symbols to replace text
answers within instances. This forces the model to carefully understand the
demonstration images and establish a relationship between the images and the
symbols to answer questions correctly. We validate the effectiveness of this
method on multiple benchmarks, demonstrating that with SymDPO, LMMs can more
effectively understand the multimodal context within examples and utilize this
knowledge to answer questions better.Summary
AI-Generated Summary