ITACLIP: Het verbeteren van trainingvrije semantische segmentatie met beeld-, tekst- en architecturale verbeteringen.
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements
November 18, 2024
Auteurs: M. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin
cs.AI
Samenvatting
Recente ontwikkelingen in fundamentele Vision Language Models (VLM's) hebben het evaluatieparadigma in computervisietaken veranderd. Deze fundamentele modellen, met name CLIP, hebben het onderzoek naar computervisietaken met open woordenschat versneld, waaronder Open-Vocabulary Semantic Segmentation (OVSS). Hoewel de eerste resultaten veelbelovend zijn, vereisen de dichte voorspellingsmogelijkheden van VLM's nog verdere verbetering. In dit onderzoek verbeteren we de semantische segmentatieprestaties van CLIP door nieuwe modules en aanpassingen te introduceren: 1) architecturale veranderingen in de laatste laag van ViT en de incorporatie van aandachtskaarten van de middelste lagen met de laatste laag, 2) Beeldtechniek: het toepassen van gegevensaugmentaties om de invoerbeeldrepresentaties te verrijken, en 3) het gebruik van Grote Taalmodellen (LLM's) om definities en synoniemen te genereren voor elke klassenaam om te profiteren van de open-woordenschatmogelijkheden van CLIP. Onze trainingsvrije methode, ITACLIP, presteert beter dan de huidige state-of-the-art benaderingen op segmentatie-benchmarks zoals COCO-Stuff, COCO-Object, Pascal Context en Pascal VOC. Onze code is beschikbaar op https://github.com/m-arda-aydn/ITACLIP.
English
Recent advances in foundational Vision Language Models (VLMs) have reshaped
the evaluation paradigm in computer vision tasks. These foundational models,
especially CLIP, have accelerated research in open-vocabulary computer vision
tasks, including Open-Vocabulary Semantic Segmentation (OVSS). Although the
initial results are promising, the dense prediction capabilities of VLMs still
require further improvement. In this study, we enhance the semantic
segmentation performance of CLIP by introducing new modules and modifications:
1) architectural changes in the last layer of ViT and the incorporation of
attention maps from the middle layers with the last layer, 2) Image
Engineering: applying data augmentations to enrich input image representations,
and 3) using Large Language Models (LLMs) to generate definitions and synonyms
for each class name to leverage CLIP's open-vocabulary capabilities. Our
training-free method, ITACLIP, outperforms current state-of-the-art approaches
on segmentation benchmarks such as COCO-Stuff, COCO-Object, Pascal Context, and
Pascal VOC. Our code is available at https://github.com/m-arda-aydn/ITACLIP.Summary
AI-Generated Summary