ITACLIP: Potenziare la segmentazione semantica senza addestramento con miglioramenti delle immagini, del testo e dell'architettura
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements
November 18, 2024
Autori: M. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin
cs.AI
Abstract
I recenti progressi nei Modelli di Visione Linguistica fondamentali (VLM) hanno ridefinito il paradigma di valutazione nei compiti di visione artificiale. Questi modelli fondamentali, in particolare CLIP, hanno accelerato la ricerca nei compiti di visione artificiale a vocabolario aperto, inclusa la Segmentazione Semantica a Vocabolario Aperto (OVSS). Anche se i risultati iniziali sono promettenti, le capacità di previsione densa dei VLM richiedono ancora ulteriori miglioramenti. In questo studio, miglioriamo le prestazioni di segmentazione semantica di CLIP introducendo nuovi moduli e modifiche: 1) cambiamenti architetturali nell'ultimo strato di ViT e l'incorporazione delle mappe di attenzione dai livelli intermedi con l'ultimo strato, 2) Ingegneria delle Immagini: applicare aumenti di dati per arricchire le rappresentazioni delle immagini in ingresso, e 3) utilizzare Modelli Linguistici Grandi (LLM) per generare definizioni e sinonimi per ciascun nome di classe per sfruttare le capacità a vocabolario aperto di CLIP. Il nostro metodo senza addestramento, ITACLIP, supera gli attuali approcci all'avanguardia sui benchmark di segmentazione come COCO-Stuff, COCO-Object, Pascal Context e Pascal VOC. Il nostro codice è disponibile su https://github.com/m-arda-aydn/ITACLIP.
English
Recent advances in foundational Vision Language Models (VLMs) have reshaped
the evaluation paradigm in computer vision tasks. These foundational models,
especially CLIP, have accelerated research in open-vocabulary computer vision
tasks, including Open-Vocabulary Semantic Segmentation (OVSS). Although the
initial results are promising, the dense prediction capabilities of VLMs still
require further improvement. In this study, we enhance the semantic
segmentation performance of CLIP by introducing new modules and modifications:
1) architectural changes in the last layer of ViT and the incorporation of
attention maps from the middle layers with the last layer, 2) Image
Engineering: applying data augmentations to enrich input image representations,
and 3) using Large Language Models (LLMs) to generate definitions and synonyms
for each class name to leverage CLIP's open-vocabulary capabilities. Our
training-free method, ITACLIP, outperforms current state-of-the-art approaches
on segmentation benchmarks such as COCO-Stuff, COCO-Object, Pascal Context, and
Pascal VOC. Our code is available at https://github.com/m-arda-aydn/ITACLIP.Summary
AI-Generated Summary