ChatPaper.aiChatPaper

MIEB: Benchmark per l'Embedding di Immagini su Larga Scala

MIEB: Massive Image Embedding Benchmark

April 14, 2025
Autori: Chenghao Xiao, Isaac Chung, Imene Kerboua, Jamie Stirling, Xin Zhang, Márton Kardos, Roman Solomatin, Noura Al Moubayed, Kenneth Enevoldsen, Niklas Muennighoff
cs.AI

Abstract

Le rappresentazioni delle immagini vengono spesso valutate attraverso protocolli disgiunti e specifici per ogni compito, portando a una comprensione frammentata delle capacità dei modelli. Ad esempio, non è chiaro se un modello di embedding di immagini abile nel raggruppare immagini sia altrettanto efficace nel recuperare immagini rilevanti dato un testo. Introduciamo il Massive Image Embedding Benchmark (MIEB) per valutare le prestazioni dei modelli di embedding di immagini e di immagini-testo attraverso lo spettro più ampio fino ad oggi. MIEB copre 38 lingue in 130 compiti individuali, che raggruppiamo in 8 categorie di alto livello. Abbiamo valutato 50 modelli nel nostro benchmark, riscontrando che nessun singolo metodo domina in tutte le categorie di compiti. Riveliamo capacità nascoste nei modelli di visione avanzati, come la loro accurata rappresentazione visiva dei testi, e le loro ancora limitate capacità negli encoding intervallati e nel confrontare immagini e testi in presenza di fattori confondenti. Mostriamo inoltre che le prestazioni degli encoder di visione su MIEB sono altamente correlate con le loro prestazioni quando utilizzati in modelli linguistici multimodali di grandi dimensioni. Il nostro codice, dataset e classifica sono disponibili pubblicamente all'indirizzo https://github.com/embeddings-benchmark/mteb.
English
Image representations are often evaluated through disjointed, task-specific protocols, leading to a fragmented understanding of model capabilities. For instance, it is unclear whether an image embedding model adept at clustering images is equally good at retrieving relevant images given a piece of text. We introduce the Massive Image Embedding Benchmark (MIEB) to evaluate the performance of image and image-text embedding models across the broadest spectrum to date. MIEB spans 38 languages across 130 individual tasks, which we group into 8 high-level categories. We benchmark 50 models across our benchmark, finding that no single method dominates across all task categories. We reveal hidden capabilities in advanced vision models such as their accurate visual representation of texts, and their yet limited capabilities in interleaved encodings and matching images and texts in the presence of confounders. We also show that the performance of vision encoders on MIEB correlates highly with their performance when used in multimodal large language models. Our code, dataset, and leaderboard are publicly available at https://github.com/embeddings-benchmark/mteb.

Summary

AI-Generated Summary

PDF142April 15, 2025