ChatPaper.aiChatPaper

Sind Vision Language Models textur- oder formorientiert und können wir sie lenken?

Are Vision Language Models Texture or Shape Biased and Can We Steer Them?

March 14, 2024
Autoren: Paul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, Bianca Lamm, Muhammad Jehanzeb Mirza, Margret Keuper, Janis Keuper
cs.AI

Zusammenfassung

Vision Language Models (VLMs) haben in nur wenigen Jahren drastisch die Modelllandschaft der Computer Vision verändert und eine spannende Vielfalt neuer Anwendungen eröffnet, von der Zero-Shot-Bildklassifizierung über die Bildbeschreibung bis hin zur visuellen Fragebeantwortung. Im Gegensatz zu reinen Vision-Modellen bieten sie einen intuitiven Zugang zu visuellen Inhalten durch sprachliche Eingaben. Die breite Anwendbarkeit solcher Modelle regt uns dazu an zu fragen, ob sie auch mit der menschlichen Vision übereinstimmen - insbesondere, inwieweit sie menschlich induzierte visuelle Vorurteile durch multimodale Fusion übernehmen oder ob sie einfach Vorurteile von reinen Vision-Modellen erben. Ein wichtiger visueller Vorurteil ist das Textur-gegen-Form-Vorurteil oder die Dominanz lokaler gegenüber globaler Informationen. In dieser Arbeit untersuchen wir dieses Vorurteil in einer Vielzahl beliebter VLMs. Interessanterweise stellen wir fest, dass VLMs oft stärker formorientiert sind als ihre Vision-Encoder, was darauf hindeutet, dass visuelle Vorurteile in multimodalen Modellen in gewissem Maße durch Text moduliert werden. Wenn Text tatsächlich visuelle Vorurteile beeinflusst, legt dies nahe, dass wir visuelle Vorurteile nicht nur durch visuelle Eingaben, sondern auch durch Sprache steuern können: eine Hypothese, die wir durch umfangreiche Experimente bestätigen. Beispielsweise können wir das Formvorurteil allein durch Eingabeaufforderungen von so niedrig wie 49% auf so hoch wie 72% lenken. Der starke menschliche Vorurteil gegenüber Form (96%) bleibt jedoch für alle getesteten VLMs vorerst unerreichbar.
English
Vision language models (VLMs) have drastically changed the computer vision model landscape in only a few years, opening an exciting array of new applications from zero-shot image classification, over to image captioning, and visual question answering. Unlike pure vision models, they offer an intuitive way to access visual content through language prompting. The wide applicability of such models encourages us to ask whether they also align with human vision - specifically, how far they adopt human-induced visual biases through multimodal fusion, or whether they simply inherit biases from pure vision models. One important visual bias is the texture vs. shape bias, or the dominance of local over global information. In this paper, we study this bias in a wide range of popular VLMs. Interestingly, we find that VLMs are often more shape-biased than their vision encoders, indicating that visual biases are modulated to some extent through text in multimodal models. If text does indeed influence visual biases, this suggests that we may be able to steer visual biases not just through visual input but also through language: a hypothesis that we confirm through extensive experiments. For instance, we are able to steer shape bias from as low as 49% to as high as 72% through prompting alone. For now, the strong human bias towards shape (96%) remains out of reach for all tested VLMs.

Summary

AI-Generated Summary

PDF92January 28, 2025