ITACLIP: Potenziare la segmentazione semantica senza addestramento con miglioramenti delle immagini, del testo e dell'architettura

Abstract

I recenti progressi nei Modelli di Visione Linguistica fondamentali (VLM) hanno ridefinito il paradigma di valutazione nei compiti di visione artificiale. Questi modelli fondamentali, in particolare CLIP, hanno accelerato la ricerca nei compiti di visione artificiale a vocabolario aperto, inclusa la Segmentazione Semantica a Vocabolario Aperto (OVSS). Anche se i risultati iniziali sono promettenti, le capacità di previsione densa dei VLM richiedono ancora ulteriori miglioramenti. In questo studio, miglioriamo le prestazioni di segmentazione semantica di CLIP introducendo nuovi moduli e modifiche: 1) cambiamenti architetturali nell'ultimo strato di ViT e l'incorporazione delle mappe di attenzione dai livelli intermedi con l'ultimo strato, 2) Ingegneria delle Immagini: applicare aumenti di dati per arricchire le rappresentazioni delle immagini in ingresso, e 3) utilizzare Modelli Linguistici Grandi (LLM) per generare definizioni e sinonimi per ciascun nome di classe per sfruttare le capacità a vocabolario aperto di CLIP. Il nostro metodo senza addestramento, ITACLIP, supera gli attuali approcci all'avanguardia sui benchmark di segmentazione come COCO-Stuff, COCO-Object, Pascal Context e Pascal VOC. Il nostro codice è disponibile su https://github.com/m-arda-aydn/ITACLIP.

English

Recent advances in foundational Vision Language Models (VLMs) have reshaped the evaluation paradigm in computer vision tasks. These foundational models, especially CLIP, have accelerated research in open-vocabulary computer vision tasks, including Open-Vocabulary Semantic Segmentation (OVSS). Although the initial results are promising, the dense prediction capabilities of VLMs still require further improvement. In this study, we enhance the semantic segmentation performance of CLIP by introducing new modules and modifications: 1) architectural changes in the last layer of ViT and the incorporation of attention maps from the middle layers with the last layer, 2) Image Engineering: applying data augmentations to enrich input image representations, and 3) using Large Language Models (LLMs) to generate definitions and synonyms for each class name to leverage CLIP's open-vocabulary capabilities. Our training-free method, ITACLIP, outperforms current state-of-the-art approaches on segmentation benchmarks such as COCO-Stuff, COCO-Object, Pascal Context, and Pascal VOC. Our code is available at https://github.com/m-arda-aydn/ITACLIP.

ITACLIP: Potenziare la segmentazione semantica senza addestramento con miglioramenti delle immagini, del testo e dell'architettura

ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

Abstract

Support