Franchir la barrière de la modalité : Apprentissage d'embeddings universels avec des LLMs multimodaux
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
April 24, 2025
Auteurs: Tiancheng Gu, Kaicheng Yang, Ziyong Feng, Xingjun Wang, Yanzhao Zhang, Dingkun Long, Yingda Chen, Weidong Cai, Jiankang Deng
cs.AI
Résumé
Le cadre de pré-entraînement contrastif langage-image (CLIP) est devenu une approche largement utilisée pour l'apprentissage de représentations multimodales, en particulier dans les tâches de recherche et de clustering image-texte. Cependant, son efficacité est limitée par trois contraintes majeures : (1) la troncation des tokens textuels, (2) l'encodage isolé des images et des textes, et (3) une compositionnalité insuffisante due à un comportement de type "sac de mots". Bien que les modèles de langage multimodaux de grande taille (MLLMs) récents aient montré des avancées significatives dans la compréhension généralisée vision-langage, leur potentiel pour apprendre des représentations multimodales transférables reste sous-exploré. Dans ce travail, nous présentons UniME (Universal Multimodal Embedding), un nouveau cadre en deux étapes qui exploite les MLLMs pour apprendre des représentations discriminatives pour diverses tâches en aval. Dans la première étape, nous effectuons une distillation de connaissances discriminatives textuelles à partir d'un modèle enseignant basé sur un LLM puissant pour améliorer la capacité d'encodage du composant langage du MLLM. Dans la deuxième étape, nous introduisons un réglage par instructions renforcé par des négatifs difficiles pour approfondir l'apprentissage de représentations discriminatives. Plus précisément, nous atténuons d'abord la contamination par les faux négatifs, puis échantillonnons plusieurs négatifs difficiles par instance dans chaque lot, forçant le modèle à se concentrer sur les échantillons complexes. Cette approche améliore non seulement la puissance discriminative, mais aussi la capacité à suivre les instructions dans les tâches en aval. Nous menons des expériences approfondies sur le benchmark MMEB et plusieurs tâches de recherche, incluant la recherche de légendes courtes et longues ainsi que la recherche compositionnelle. Les résultats montrent qu'UniME obtient une amélioration constante des performances sur toutes les tâches, démontrant des capacités discriminatives et compositionnelles supérieures.
English
The Contrastive Language-Image Pre-training (CLIP) framework has become a
widely used approach for multimodal representation learning, particularly in
image-text retrieval and clustering. However, its efficacy is constrained by
three key limitations: (1) text token truncation, (2) isolated image-text
encoding, and (3) deficient compositionality due to bag-of-words behavior.
While recent Multimodal Large Language Models (MLLMs) have demonstrated
significant advances in generalized vision-language understanding, their
potential for learning transferable multimodal representations remains
underexplored.In this work, we present UniME (Universal Multimodal Embedding),
a novel two-stage framework that leverages MLLMs to learn discriminative
representations for diverse downstream tasks. In the first stage, we perform
textual discriminative knowledge distillation from a powerful LLM-based teacher
model to enhance the embedding capability of the MLLM\'s language component. In
the second stage, we introduce hard negative enhanced instruction tuning to
further advance discriminative representation learning. Specifically, we
initially mitigate false negative contamination and then sample multiple hard
negatives per instance within each batch, forcing the model to focus on
challenging samples. This approach not only improves discriminative power but
also enhances instruction-following ability in downstream tasks. We conduct
extensive experiments on the MMEB benchmark and multiple retrieval tasks,
including short and long caption retrieval and compositional retrieval. Results
demonstrate that UniME achieves consistent performance improvement across all
tasks, exhibiting superior discriminative and compositional capabilities.Summary
AI-Generated Summary