CoLLM: Ein großes Sprachmodell für zusammengesetzte Bildretrieval
CoLLM: A Large Language Model for Composed Image Retrieval
March 25, 2025
Autoren: Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
cs.AI
Zusammenfassung
Composed Image Retrieval (CIR) ist eine komplexe Aufgabe, die darauf abzielt, Bilder basierend auf einer multimodalen Abfrage zu finden. Typische Trainingsdaten bestehen aus Tripeln, die ein Referenzbild, eine textuelle Beschreibung der gewünschten Änderungen und das Zielbild enthalten, deren Erstellung jedoch kostspielig und zeitaufwendig ist. Die Knappheit von CIR-Datensätzen hat zu Zero-Shot-Ansätzen geführt, die synthetische Tripel nutzen oder Vision-Language-Modelle (VLMs) mit weit verbreiteten, aus dem Web extrahierten Bild-Beschriftungs-Paaren verwenden. Diese Methoden weisen jedoch erhebliche Einschränkungen auf: synthetische Tripel leiden unter begrenztem Umfang, mangelnder Diversität und unnatürlichem Änderungstext, während Bild-Beschriftungs-Paare das gemeinsame Einbettungslernen der multimodalen Abfrage aufgrund des Fehlens von Tripeldaten behindern. Darüber hinaus haben bestehende Ansätze Schwierigkeiten mit komplexen und nuancierten Änderungstexten, die eine anspruchsvolle Fusion und ein tiefes Verständnis der visuellen und sprachlichen Modalitäten erfordern. Wir stellen CoLLM vor, ein All-in-One-Framework, das diese Einschränkungen effektiv adressiert. Unser Ansatz generiert Tripel in Echtzeit aus Bild-Beschriftungs-Paaren und ermöglicht so ein überwachtes Training ohne manuelle Annotation. Wir nutzen Large Language Models (LLMs), um gemeinsame Einbettungen von Referenzbildern und Änderungstexten zu erzeugen, was eine tiefere multimodale Fusion fördert. Zusätzlich führen wir Multi-Text CIR (MTCIR) ein, einen groß angelegten Datensatz mit 3,4 Millionen Proben, und verfeinern bestehende CIR-Benchmarks (CIRR und Fashion-IQ), um die Zuverlässigkeit der Bewertung zu erhöhen. Experimentelle Ergebnisse zeigen, dass CoLLM in mehreren CIR-Benchmarks und -Einstellungen Spitzenleistungen erzielt. MTCIR liefert wettbewerbsfähige Ergebnisse mit einer Leistungssteigerung von bis zu 15 %. Unsere verfeinerten Benchmarks bieten zuverlässigere Bewertungsmetriken für CIR-Modelle und tragen so zur Weiterentwicklung dieses wichtigen Forschungsbereichs bei.
English
Composed Image Retrieval (CIR) is a complex task that aims to retrieve images
based on a multimodal query. Typical training data consists of triplets
containing a reference image, a textual description of desired modifications,
and the target image, which are expensive and time-consuming to acquire. The
scarcity of CIR datasets has led to zero-shot approaches utilizing synthetic
triplets or leveraging vision-language models (VLMs) with ubiquitous
web-crawled image-caption pairs. However, these methods have significant
limitations: synthetic triplets suffer from limited scale, lack of diversity,
and unnatural modification text, while image-caption pairs hinder joint
embedding learning of the multimodal query due to the absence of triplet data.
Moreover, existing approaches struggle with complex and nuanced modification
texts that demand sophisticated fusion and understanding of vision and language
modalities. We present CoLLM, a one-stop framework that effectively addresses
these limitations. Our approach generates triplets on-the-fly from
image-caption pairs, enabling supervised training without manual annotation. We
leverage Large Language Models (LLMs) to generate joint embeddings of reference
images and modification texts, facilitating deeper multimodal fusion.
Additionally, we introduce Multi-Text CIR (MTCIR), a large-scale dataset
comprising 3.4M samples, and refine existing CIR benchmarks (CIRR and
Fashion-IQ) to enhance evaluation reliability. Experimental results demonstrate
that CoLLM achieves state-of-the-art performance across multiple CIR benchmarks
and settings. MTCIR yields competitive results, with up to 15% performance
improvement. Our refined benchmarks provide more reliable evaluation metrics
for CIR models, contributing to the advancement of this important field.Summary
AI-Generated Summary