ITACLIP : Amélioration de la segmentation sémantique sans entraînement à l'aide d'améliorations d'images, de texte et architecturales.
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements
November 18, 2024
Auteurs: M. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin
cs.AI
Résumé
Les récents progrès dans les Modèles de Langage Vision Fondationnels (VLM) ont remodelé le paradigme d'évaluation dans les tâches de vision par ordinateur. Ces modèles fondationnels, en particulier CLIP, ont accéléré la recherche dans les tâches de vision par ordinateur à vocabulaire ouvert, y compris la Segmentation Sémantique à Vocabulaire Ouvert (OVSS). Bien que les résultats initiaux soient prometteurs, les capacités de prédiction dense des VLM nécessitent encore des améliorations supplémentaires. Dans cette étude, nous améliorons les performances de segmentation sémantique de CLIP en introduisant de nouveaux modules et modifications :
1) des changements architecturaux dans la dernière couche de ViT et l'incorporation de cartes d'attention des couches intermédiaires avec la dernière couche, 2) Ingénierie d'Image : application d'augmentations de données pour enrichir les représentations d'images d'entrée, et 3) l'utilisation de Grands Modèles de Langage (LLM) pour générer des définitions et des synonymes pour chaque nom de classe afin de tirer parti des capacités à vocabulaire ouvert de CLIP. Notre méthode sans entraînement, ITACLIP, surpasse les approches actuelles de pointe sur des référentiels de segmentation tels que COCO-Stuff, COCO-Object, Pascal Context et Pascal VOC. Notre code est disponible sur https://github.com/m-arda-aydn/ITACLIP.
English
Recent advances in foundational Vision Language Models (VLMs) have reshaped
the evaluation paradigm in computer vision tasks. These foundational models,
especially CLIP, have accelerated research in open-vocabulary computer vision
tasks, including Open-Vocabulary Semantic Segmentation (OVSS). Although the
initial results are promising, the dense prediction capabilities of VLMs still
require further improvement. In this study, we enhance the semantic
segmentation performance of CLIP by introducing new modules and modifications:
1) architectural changes in the last layer of ViT and the incorporation of
attention maps from the middle layers with the last layer, 2) Image
Engineering: applying data augmentations to enrich input image representations,
and 3) using Large Language Models (LLMs) to generate definitions and synonyms
for each class name to leverage CLIP's open-vocabulary capabilities. Our
training-free method, ITACLIP, outperforms current state-of-the-art approaches
on segmentation benchmarks such as COCO-Stuff, COCO-Object, Pascal Context, and
Pascal VOC. Our code is available at https://github.com/m-arda-aydn/ITACLIP.Summary
AI-Generated Summary