Sui Grandi Modelli Multimodali come Classificatori di Immagini per Mondi Aperti
On Large Multimodal Models as Open-World Image Classifiers
March 27, 2025
Autori: Alessandro Conti, Massimiliano Mancini, Enrico Fini, Yiming Wang, Paolo Rota, Elisa Ricci
cs.AI
Abstract
La classificazione tradizionale delle immagini richiede un elenco predefinito di categorie semantiche. Al contrario, i Large Multimodal Models (LMM) possono aggirare questo requisito classificando le immagini direttamente utilizzando il linguaggio naturale (ad esempio, rispondendo alla domanda "Qual è l'oggetto principale nell'immagine?"). Nonostante questa notevole capacità, la maggior parte degli studi esistenti sulle prestazioni di classificazione degli LMM è sorprendentemente limitata nell'ambito, spesso assumendo un contesto di mondo chiuso con un insieme predefinito di categorie. In questo lavoro, affrontiamo questa lacuna valutando approfonditamente le prestazioni di classificazione degli LMM in un contesto veramente aperto. Prima formalizziamo il compito e introduciamo un protocollo di valutazione, definendo varie metriche per valutare l'allineamento tra le classi previste e quelle reali. Successivamente, valutiamo 13 modelli su 10 benchmark, comprendendo classi prototipiche, non prototipiche, a grana fine e a grana molto fine, dimostrando le sfide che gli LMM affrontano in questo compito. Ulteriori analisi basate sulle metriche proposte rivelano i tipi di errori commessi dagli LMM, evidenziando le sfide legate alla granularità e alle capacità a grana fine, mostrando come prompt e ragionamenti mirati possano alleviarle.
English
Traditional image classification requires a predefined list of semantic
categories. In contrast, Large Multimodal Models (LMMs) can sidestep this
requirement by classifying images directly using natural language (e.g.,
answering the prompt "What is the main object in the image?"). Despite this
remarkable capability, most existing studies on LMM classification performance
are surprisingly limited in scope, often assuming a closed-world setting with a
predefined set of categories. In this work, we address this gap by thoroughly
evaluating LMM classification performance in a truly open-world setting. We
first formalize the task and introduce an evaluation protocol, defining various
metrics to assess the alignment between predicted and ground truth classes. We
then evaluate 13 models across 10 benchmarks, encompassing prototypical,
non-prototypical, fine-grained, and very fine-grained classes, demonstrating
the challenges LMMs face in this task. Further analyses based on the proposed
metrics reveal the types of errors LMMs make, highlighting challenges related
to granularity and fine-grained capabilities, showing how tailored prompting
and reasoning can alleviate them.Summary
AI-Generated Summary