ITACLIP: Het verbeteren van trainingvrije semantische segmentatie met beeld-, tekst- en architecturale verbeteringen.

ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

November 18, 2024
Auteurs: M. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin
cs.AI

Samenvatting

Recente ontwikkelingen in fundamentele Vision Language Models (VLM's) hebben het evaluatieparadigma in computervisietaken veranderd. Deze fundamentele modellen, met name CLIP, hebben het onderzoek naar computervisietaken met open woordenschat versneld, waaronder Open-Vocabulary Semantic Segmentation (OVSS). Hoewel de eerste resultaten veelbelovend zijn, vereisen de dichte voorspellingsmogelijkheden van VLM's nog verdere verbetering. In dit onderzoek verbeteren we de semantische segmentatieprestaties van CLIP door nieuwe modules en aanpassingen te introduceren: 1) architecturale veranderingen in de laatste laag van ViT en de incorporatie van aandachtskaarten van de middelste lagen met de laatste laag, 2) Beeldtechniek: het toepassen van gegevensaugmentaties om de invoerbeeldrepresentaties te verrijken, en 3) het gebruik van Grote Taalmodellen (LLM's) om definities en synoniemen te genereren voor elke klassenaam om te profiteren van de open-woordenschatmogelijkheden van CLIP. Onze trainingsvrije methode, ITACLIP, presteert beter dan de huidige state-of-the-art benaderingen op segmentatie-benchmarks zoals COCO-Stuff, COCO-Object, Pascal Context en Pascal VOC. Onze code is beschikbaar op https://github.com/m-arda-aydn/ITACLIP.
English
Recent advances in foundational Vision Language Models (VLMs) have reshaped the evaluation paradigm in computer vision tasks. These foundational models, especially CLIP, have accelerated research in open-vocabulary computer vision tasks, including Open-Vocabulary Semantic Segmentation (OVSS). Although the initial results are promising, the dense prediction capabilities of VLMs still require further improvement. In this study, we enhance the semantic segmentation performance of CLIP by introducing new modules and modifications: 1) architectural changes in the last layer of ViT and the incorporation of attention maps from the middle layers with the last layer, 2) Image Engineering: applying data augmentations to enrich input image representations, and 3) using Large Language Models (LLMs) to generate definitions and synonyms for each class name to leverage CLIP's open-vocabulary capabilities. Our training-free method, ITACLIP, outperforms current state-of-the-art approaches on segmentation benchmarks such as COCO-Stuff, COCO-Object, Pascal Context, and Pascal VOC. Our code is available at https://github.com/m-arda-aydn/ITACLIP.

Summary

AI-Generated Summary

PDF132November 20, 2024