ITACLIP: Steigerung der trainingsfreien semantischen Segmentierung durch Bild-, Text- und architektonische Verbesserungen
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements
November 18, 2024
Autoren: M. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin
cs.AI
Zusammenfassung
Neueste Fortschritte bei grundlegenden Vision Language Models (VLMs) haben das Bewertungsparadigma bei Computer Vision Aufgaben verändert. Diese grundlegenden Modelle, insbesondere CLIP, haben die Forschung in Open-Vocabulary Computer Vision Aufgaben, einschließlich Open-Vocabulary Semantic Segmentation (OVSS), beschleunigt. Obwohl die anfänglichen Ergebnisse vielversprechend sind, erfordern die dichten Vorhersagefähigkeiten von VLMs noch weitere Verbesserungen. In dieser Studie verbessern wir die semantische Segmentierungsleistung von CLIP, indem wir neue Module und Modifikationen einführen: 1) architektonische Änderungen in der letzten Schicht von ViT und die Integration von Aufmerksamkeitskarten aus den mittleren Schichten mit der letzten Schicht, 2) Bildtechnik: Anwendung von Datenveränderungen zur Anreicherung von Eingabebildrepräsentationen, und 3) Verwendung von Large Language Models (LLMs) zur Generierung von Definitionen und Synonymen für jeden Klassennamen, um die Open-Vocabulary Fähigkeiten von CLIP zu nutzen. Unsere trainingsfreie Methode, ITACLIP, übertrifft aktuelle State-of-the-Art Ansätze bei Segmentierungsbenchmarks wie COCO-Stuff, COCO-Object, Pascal Context und Pascal VOC. Unser Code ist verfügbar unter https://github.com/m-arda-aydn/ITACLIP.
English
Recent advances in foundational Vision Language Models (VLMs) have reshaped
the evaluation paradigm in computer vision tasks. These foundational models,
especially CLIP, have accelerated research in open-vocabulary computer vision
tasks, including Open-Vocabulary Semantic Segmentation (OVSS). Although the
initial results are promising, the dense prediction capabilities of VLMs still
require further improvement. In this study, we enhance the semantic
segmentation performance of CLIP by introducing new modules and modifications:
1) architectural changes in the last layer of ViT and the incorporation of
attention maps from the middle layers with the last layer, 2) Image
Engineering: applying data augmentations to enrich input image representations,
and 3) using Large Language Models (LLMs) to generate definitions and synonyms
for each class name to leverage CLIP's open-vocabulary capabilities. Our
training-free method, ITACLIP, outperforms current state-of-the-art approaches
on segmentation benchmarks such as COCO-Stuff, COCO-Object, Pascal Context, and
Pascal VOC. Our code is available at https://github.com/m-arda-aydn/ITACLIP.Summary
AI-Generated Summary