Das Modality Barrier durchbrechen: Universelles Embedding-Lernen mit multimodalen LLMs
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
April 24, 2025
Autoren: Tiancheng Gu, Kaicheng Yang, Ziyong Feng, Xingjun Wang, Yanzhao Zhang, Dingkun Long, Yingda Chen, Weidong Cai, Jiankang Deng
cs.AI
Zusammenfassung
Das Contrastive Language-Image Pre-training (CLIP)-Framework hat sich zu einem weit verbreiteten Ansatz für multimodales Repräsentationslernen entwickelt, insbesondere in den Bereichen Bild-Text-Retrieval und Clustering. Seine Wirksamkeit wird jedoch durch drei wesentliche Einschränkungen begrenzt: (1) Text-Token-Trunkierung, (2) isolierte Bild-Text-Kodierung und (3) mangelnde Kompositionalität aufgrund von Bag-of-Words-Verhalten. Während neuere Multimodale Large Language Models (MLLMs) bedeutende Fortschritte im generalisierten Verständnis von Vision und Sprache gezeigt haben, bleibt ihr Potenzial für das Lernen übertragbarer multimodaler Repräsentationen weitgehend unerforscht. In dieser Arbeit präsentieren wir UniME (Universal Multimodal Embedding), ein neuartiges zweistufiges Framework, das MLLMs nutzt, um diskriminative Repräsentationen für verschiedene Downstream-Aufgaben zu lernen. In der ersten Stufe führen wir eine textuelle diskriminative Wissensdistillation von einem leistungsstarken LLM-basierten Lehrermodell durch, um die Einbettungsfähigkeit der Sprachkomponente des MLLMs zu verbessern. In der zweiten Stufe führen wir ein Hard-Negative-Enhanced Instruction Tuning ein, um das diskriminative Repräsentationslernen weiter voranzutreiben. Konkret mildern wir zunächst die Kontamination durch falsche Negative und sampeln dann mehrere harte Negative pro Instanz innerhalb jedes Batches, wodurch das Modell gezwungen wird, sich auf anspruchsvolle Beispiele zu konzentrieren. Dieser Ansatz verbessert nicht nur die diskriminative Kraft, sondern steigert auch die Fähigkeit zur Befolgung von Anweisungen in Downstream-Aufgaben. Wir führen umfangreiche Experimente auf dem MMEB-Benchmark und mehreren Retrieval-Aufgaben durch, darunter die Retrieval von kurzen und langen Bildunterschriften sowie die kompositionelle Retrieval. Die Ergebnisse zeigen, dass UniME durchweg Leistungsverbesserungen über alle Aufgaben hinweg erzielt und überlegene diskriminative und kompositionelle Fähigkeiten aufweist.
English
The Contrastive Language-Image Pre-training (CLIP) framework has become a
widely used approach for multimodal representation learning, particularly in
image-text retrieval and clustering. However, its efficacy is constrained by
three key limitations: (1) text token truncation, (2) isolated image-text
encoding, and (3) deficient compositionality due to bag-of-words behavior.
While recent Multimodal Large Language Models (MLLMs) have demonstrated
significant advances in generalized vision-language understanding, their
potential for learning transferable multimodal representations remains
underexplored.In this work, we present UniME (Universal Multimodal Embedding),
a novel two-stage framework that leverages MLLMs to learn discriminative
representations for diverse downstream tasks. In the first stage, we perform
textual discriminative knowledge distillation from a powerful LLM-based teacher
model to enhance the embedding capability of the MLLM\'s language component. In
the second stage, we introduce hard negative enhanced instruction tuning to
further advance discriminative representation learning. Specifically, we
initially mitigate false negative contamination and then sample multiple hard
negatives per instance within each batch, forcing the model to focus on
challenging samples. This approach not only improves discriminative power but
also enhances instruction-following ability in downstream tasks. We conduct
extensive experiments on the MMEB benchmark and multiple retrieval tasks,
including short and long caption retrieval and compositional retrieval. Results
demonstrate that UniME achieves consistent performance improvement across all
tasks, exhibiting superior discriminative and compositional capabilities.Summary
AI-Generated Summary