CoLLM: Un Modello Linguistico di Grandi Dimensioni per il Recupero di Immagini Composte
CoLLM: A Large Language Model for Composed Image Retrieval
March 25, 2025
Autori: Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
cs.AI
Abstract
Il Recupero di Immagini Composte (Composed Image Retrieval, CIR) è un compito complesso che mira a recuperare immagini basandosi su una query multimodale. I dati di addestramento tipici consistono in triplette contenenti un'immagine di riferimento, una descrizione testuale delle modifiche desiderate e l'immagine target, che sono costose e dispendiose in termini di tempo da acquisire. La scarsità di dataset per il CIR ha portato a approcci zero-shot che utilizzano triplette sintetiche o sfruttano modelli visione-linguaggio (Vision-Language Models, VLMs) con coppie immagine-didascalia raccolte dal web. Tuttavia, questi metodi presentano significative limitazioni: le triplette sintetiche soffrono di scala limitata, mancanza di diversità e testi di modifica innaturali, mentre le coppie immagine-didascalia ostacolano l'apprendimento congiunto degli embedding multimodali a causa dell'assenza di dati a triplette. Inoltre, gli approcci esistenti faticano con testi di modifica complessi e sfumati che richiedono una fusione e una comprensione sofisticata delle modalità visive e linguistiche. Presentiamo CoLLM, un framework completo che affronta efficacemente queste limitazioni. Il nostro approccio genera triplette al volo da coppie immagine-didascalia, consentendo un addestramento supervisionato senza annotazione manuale. Sfruttiamo i Modelli Linguistici di Grande Scala (Large Language Models, LLMs) per generare embedding congiunti di immagini di riferimento e testi di modifica, facilitando una fusione multimodale più profonda. Inoltre, introduciamo Multi-Text CIR (MTCIR), un dataset su larga scala composto da 3,4 milioni di campioni, e perfezioniamo i benchmark esistenti per il CIR (CIRR e Fashion-IQ) per migliorare l'affidabilità della valutazione. I risultati sperimentali dimostrano che CoLLM raggiunge prestazioni all'avanguardia su più benchmark e impostazioni del CIR. MTCIR produce risultati competitivi, con un miglioramento delle prestazioni fino al 15%. I nostri benchmark perfezionati forniscono metriche di valutazione più affidabili per i modelli CIR, contribuendo all'avanzamento di questo importante campo.
English
Composed Image Retrieval (CIR) is a complex task that aims to retrieve images
based on a multimodal query. Typical training data consists of triplets
containing a reference image, a textual description of desired modifications,
and the target image, which are expensive and time-consuming to acquire. The
scarcity of CIR datasets has led to zero-shot approaches utilizing synthetic
triplets or leveraging vision-language models (VLMs) with ubiquitous
web-crawled image-caption pairs. However, these methods have significant
limitations: synthetic triplets suffer from limited scale, lack of diversity,
and unnatural modification text, while image-caption pairs hinder joint
embedding learning of the multimodal query due to the absence of triplet data.
Moreover, existing approaches struggle with complex and nuanced modification
texts that demand sophisticated fusion and understanding of vision and language
modalities. We present CoLLM, a one-stop framework that effectively addresses
these limitations. Our approach generates triplets on-the-fly from
image-caption pairs, enabling supervised training without manual annotation. We
leverage Large Language Models (LLMs) to generate joint embeddings of reference
images and modification texts, facilitating deeper multimodal fusion.
Additionally, we introduce Multi-Text CIR (MTCIR), a large-scale dataset
comprising 3.4M samples, and refine existing CIR benchmarks (CIRR and
Fashion-IQ) to enhance evaluation reliability. Experimental results demonstrate
that CoLLM achieves state-of-the-art performance across multiple CIR benchmarks
and settings. MTCIR yields competitive results, with up to 15% performance
improvement. Our refined benchmarks provide more reliable evaluation metrics
for CIR models, contributing to the advancement of this important field.Summary
AI-Generated Summary