De Modale Barrière Doorbreken: Universele Embedding-leren met Multimodale LLM's
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
April 24, 2025
Auteurs: Tiancheng Gu, Kaicheng Yang, Ziyong Feng, Xingjun Wang, Yanzhao Zhang, Dingkun Long, Yingda Chen, Weidong Cai, Jiankang Deng
cs.AI
Samenvatting
Het Contrastive Language-Image Pre-training (CLIP) framework is een veelgebruikte aanpak geworden voor multimodale representatieleer, met name bij beeld-tekst retrieval en clustering. De effectiviteit ervan wordt echter beperkt door drie belangrijke beperkingen: (1) teksttokenafkapping, (2) geïsoleerde beeld-tekstcodering, en (3) gebrekkige compositionaliteit door bag-of-words gedrag. Hoewel recente Multimodale Large Language Models (MLLMs) aanzienlijke vooruitgang hebben geboekt in gegeneraliseerd visueel-taalkundig begrip, blijft hun potentieel voor het leren van overdraagbare multimodale representaties onderbelicht. In dit werk presenteren we UniME (Universal Multimodal Embedding), een nieuw tweestaps framework dat MLLMs benut om discriminerende representaties te leren voor diverse downstream taken. In de eerste fase voeren we tekstuele discriminerende kennisdistillatie uit vanuit een krachtig LLM-gebaseerd leraarmodel om de inbeddingscapaciteit van de taalcomponent van de MLLM te verbeteren. In de tweede fase introduceren we hard negative enhanced instruction tuning om het leren van discriminerende representaties verder te bevorderen. Specifiek verminderen we eerst de vervuiling door valse negatieven en nemen we vervolgens meerdere harde negatieven per instantie binnen elke batch, waardoor het model wordt gedwongen zich te concentreren op uitdagende voorbeelden. Deze aanpak verbetert niet alleen de discriminerende kracht, maar versterkt ook het vermogen om instructies te volgen in downstream taken. We voeren uitgebreide experimenten uit op de MMEB benchmark en meerdere retrieval taken, waaronder korte en lange caption retrieval en compositionele retrieval. De resultaten tonen aan dat UniME consistente prestatieverbeteringen bereikt over alle taken, met superieure discriminerende en compositionele capaciteiten.
English
The Contrastive Language-Image Pre-training (CLIP) framework has become a
widely used approach for multimodal representation learning, particularly in
image-text retrieval and clustering. However, its efficacy is constrained by
three key limitations: (1) text token truncation, (2) isolated image-text
encoding, and (3) deficient compositionality due to bag-of-words behavior.
While recent Multimodal Large Language Models (MLLMs) have demonstrated
significant advances in generalized vision-language understanding, their
potential for learning transferable multimodal representations remains
underexplored.In this work, we present UniME (Universal Multimodal Embedding),
a novel two-stage framework that leverages MLLMs to learn discriminative
representations for diverse downstream tasks. In the first stage, we perform
textual discriminative knowledge distillation from a powerful LLM-based teacher
model to enhance the embedding capability of the MLLM\'s language component. In
the second stage, we introduce hard negative enhanced instruction tuning to
further advance discriminative representation learning. Specifically, we
initially mitigate false negative contamination and then sample multiple hard
negatives per instance within each batch, forcing the model to focus on
challenging samples. This approach not only improves discriminative power but
also enhances instruction-following ability in downstream tasks. We conduct
extensive experiments on the MMEB benchmark and multiple retrieval tasks,
including short and long caption retrieval and compositional retrieval. Results
demonstrate that UniME achieves consistent performance improvement across all
tasks, exhibiting superior discriminative and compositional capabilities.Summary
AI-Generated Summary