Franchir la barrière de la modalité : Apprentissage d'embeddings universels avec des LLMs multimodaux

Résumé

Le cadre de pré-entraînement contrastif langage-image (CLIP) est devenu une approche largement utilisée pour l'apprentissage de représentations multimodales, en particulier dans les tâches de recherche et de clustering image-texte. Cependant, son efficacité est limitée par trois contraintes majeures : (1) la troncation des tokens textuels, (2) l'encodage isolé des images et des textes, et (3) une compositionnalité insuffisante due à un comportement de type "sac de mots". Bien que les modèles de langage multimodaux de grande taille (MLLMs) récents aient montré des avancées significatives dans la compréhension généralisée vision-langage, leur potentiel pour apprendre des représentations multimodales transférables reste sous-exploré. Dans ce travail, nous présentons UniME (Universal Multimodal Embedding), un nouveau cadre en deux étapes qui exploite les MLLMs pour apprendre des représentations discriminatives pour diverses tâches en aval. Dans la première étape, nous effectuons une distillation de connaissances discriminatives textuelles à partir d'un modèle enseignant basé sur un LLM puissant pour améliorer la capacité d'encodage du composant langage du MLLM. Dans la deuxième étape, nous introduisons un réglage par instructions renforcé par des négatifs difficiles pour approfondir l'apprentissage de représentations discriminatives. Plus précisément, nous atténuons d'abord la contamination par les faux négatifs, puis échantillonnons plusieurs négatifs difficiles par instance dans chaque lot, forçant le modèle à se concentrer sur les échantillons complexes. Cette approche améliore non seulement la puissance discriminative, mais aussi la capacité à suivre les instructions dans les tâches en aval. Nous menons des expériences approfondies sur le benchmark MMEB et plusieurs tâches de recherche, incluant la recherche de légendes courtes et longues ainsi que la recherche compositionnelle. Les résultats montrent qu'UniME obtient une amélioration constante des performances sur toutes les tâches, démontrant des capacités discriminatives et compositionnelles supérieures.

English

The Contrastive Language-Image Pre-training (CLIP) framework has become a widely used approach for multimodal representation learning, particularly in image-text retrieval and clustering. However, its efficacy is constrained by three key limitations: (1) text token truncation, (2) isolated image-text encoding, and (3) deficient compositionality due to bag-of-words behavior. While recent Multimodal Large Language Models (MLLMs) have demonstrated significant advances in generalized vision-language understanding, their potential for learning transferable multimodal representations remains underexplored.In this work, we present UniME (Universal Multimodal Embedding), a novel two-stage framework that leverages MLLMs to learn discriminative representations for diverse downstream tasks. In the first stage, we perform textual discriminative knowledge distillation from a powerful LLM-based teacher model to enhance the embedding capability of the MLLM\'s language component. In the second stage, we introduce hard negative enhanced instruction tuning to further advance discriminative representation learning. Specifically, we initially mitigate false negative contamination and then sample multiple hard negatives per instance within each batch, forcing the model to focus on challenging samples. This approach not only improves discriminative power but also enhances instruction-following ability in downstream tasks. We conduct extensive experiments on the MMEB benchmark and multiple retrieval tasks, including short and long caption retrieval and compositional retrieval. Results demonstrate that UniME achieves consistent performance improvement across all tasks, exhibiting superior discriminative and compositional capabilities.

Franchir la barrière de la modalité : Apprentissage d'embeddings universels avec des LLMs multimodaux

Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

Résumé

Summary

Support

Support