Über die Grenzen von Vision-Sprache-Modellen beim Verständnis von Bildtransformationen

Zusammenfassung

Vision Language Models (VLMs) haben ein erhebliches Potenzial in verschiedenen nachgelagerten Aufgaben gezeigt, darunter Bild-/Videogenerierung, Visuelles Frage-Antworten, Multimodale Chatbots und Videoverständnis. Diese Modelle haben jedoch oft Schwierigkeiten mit grundlegenden Bildtransformationen. Diese Arbeit untersucht das Bildverständnis von VLMs, insbesondere CLIP von OpenAI und SigLIP von Google. Unsere Ergebnisse zeigen, dass diese Modelle kein Verständnis für multiple Bildtransformationen aufweisen. Um diese Studie zu ermöglichen, haben wir eine erweiterte Version des Flickr8k-Datensatzes erstellt, bei der jedes Bild mit einer detaillierten Beschreibung der angewandten Transformation gepaart ist. Wir untersuchen weiterhin, wie sich diese Schwäche auf nachgelagerte Aufgaben auswirkt, insbesondere bei der Bildbearbeitung, und bewerten die Leistung von state-of-the-art Image2Image-Modellen bei einfachen Transformationen.

English

Vision Language Models (VLMs) have demonstrated significant potential in various downstream tasks, including Image/Video Generation, Visual Question Answering, Multimodal Chatbots, and Video Understanding. However, these models often struggle with basic image transformations. This paper investigates the image-level understanding of VLMs, specifically CLIP by OpenAI and SigLIP by Google. Our findings reveal that these models lack comprehension of multiple image-level augmentations. To facilitate this study, we created an augmented version of the Flickr8k dataset, pairing each image with a detailed description of the applied transformation. We further explore how this deficiency impacts downstream tasks, particularly in image editing, and evaluate the performance of state-of-the-art Image2Image models on simple transformations.

Über die Grenzen von Vision-Sprache-Modellen beim Verständnis von Bildtransformationen

On the Limitations of Vision-Language Models in Understanding Image Transforms

Zusammenfassung

Summary

Support

Support