Über die Grenzen von Vision-Sprache-Modellen beim Verständnis von Bildtransformationen
On the Limitations of Vision-Language Models in Understanding Image Transforms
March 12, 2025
Autoren: Ahmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz
cs.AI
Zusammenfassung
Vision Language Models (VLMs) haben ein erhebliches Potenzial in verschiedenen nachgelagerten Aufgaben gezeigt, darunter Bild-/Videogenerierung, Visuelles Frage-Antworten, Multimodale Chatbots und Videoverständnis. Diese Modelle haben jedoch oft Schwierigkeiten mit grundlegenden Bildtransformationen. Diese Arbeit untersucht das Bildverständnis von VLMs, insbesondere CLIP von OpenAI und SigLIP von Google. Unsere Ergebnisse zeigen, dass diese Modelle kein Verständnis für multiple Bildtransformationen aufweisen. Um diese Studie zu ermöglichen, haben wir eine erweiterte Version des Flickr8k-Datensatzes erstellt, bei der jedes Bild mit einer detaillierten Beschreibung der angewandten Transformation gepaart ist. Wir untersuchen weiterhin, wie sich diese Schwäche auf nachgelagerte Aufgaben auswirkt, insbesondere bei der Bildbearbeitung, und bewerten die Leistung von state-of-the-art Image2Image-Modellen bei einfachen Transformationen.
English
Vision Language Models (VLMs) have demonstrated significant potential in
various downstream tasks, including Image/Video Generation, Visual Question
Answering, Multimodal Chatbots, and Video Understanding. However, these models
often struggle with basic image transformations. This paper investigates the
image-level understanding of VLMs, specifically CLIP by OpenAI and SigLIP by
Google. Our findings reveal that these models lack comprehension of multiple
image-level augmentations. To facilitate this study, we created an augmented
version of the Flickr8k dataset, pairing each image with a detailed description
of the applied transformation. We further explore how this deficiency impacts
downstream tasks, particularly in image editing, and evaluate the performance
of state-of-the-art Image2Image models on simple transformations.Summary
AI-Generated Summary