Sui Grandi Modelli Multimodali come Classificatori di Immagini per Mondi Aperti

Abstract

La classificazione tradizionale delle immagini richiede un elenco predefinito di categorie semantiche. Al contrario, i Large Multimodal Models (LMM) possono aggirare questo requisito classificando le immagini direttamente utilizzando il linguaggio naturale (ad esempio, rispondendo alla domanda "Qual è l'oggetto principale nell'immagine?"). Nonostante questa notevole capacità, la maggior parte degli studi esistenti sulle prestazioni di classificazione degli LMM è sorprendentemente limitata nell'ambito, spesso assumendo un contesto di mondo chiuso con un insieme predefinito di categorie. In questo lavoro, affrontiamo questa lacuna valutando approfonditamente le prestazioni di classificazione degli LMM in un contesto veramente aperto. Prima formalizziamo il compito e introduciamo un protocollo di valutazione, definendo varie metriche per valutare l'allineamento tra le classi previste e quelle reali. Successivamente, valutiamo 13 modelli su 10 benchmark, comprendendo classi prototipiche, non prototipiche, a grana fine e a grana molto fine, dimostrando le sfide che gli LMM affrontano in questo compito. Ulteriori analisi basate sulle metriche proposte rivelano i tipi di errori commessi dagli LMM, evidenziando le sfide legate alla granularità e alle capacità a grana fine, mostrando come prompt e ragionamenti mirati possano alleviarle.

English

Traditional image classification requires a predefined list of semantic categories. In contrast, Large Multimodal Models (LMMs) can sidestep this requirement by classifying images directly using natural language (e.g., answering the prompt "What is the main object in the image?"). Despite this remarkable capability, most existing studies on LMM classification performance are surprisingly limited in scope, often assuming a closed-world setting with a predefined set of categories. In this work, we address this gap by thoroughly evaluating LMM classification performance in a truly open-world setting. We first formalize the task and introduce an evaluation protocol, defining various metrics to assess the alignment between predicted and ground truth classes. We then evaluate 13 models across 10 benchmarks, encompassing prototypical, non-prototypical, fine-grained, and very fine-grained classes, demonstrating the challenges LMMs face in this task. Further analyses based on the proposed metrics reveal the types of errors LMMs make, highlighting challenges related to granularity and fine-grained capabilities, showing how tailored prompting and reasoning can alleviate them.

Sui Grandi Modelli Multimodali come Classificatori di Immagini per Mondi Aperti

On Large Multimodal Models as Open-World Image Classifiers

Abstract

Summary

Support

Support