ChatPaper.aiChatPaper

Worte oder Vision: Haben Vision-Sprach-Modelle blindes Vertrauen in Text?

Words or Vision: Do Vision-Language Models Have Blind Faith in Text?

March 4, 2025
Autoren: Ailin Deng, Tri Cao, Zhirui Chen, Bryan Hooi
cs.AI

Zusammenfassung

Vision-Language Models (VLMs) zeichnen sich durch die Integration visueller und textueller Informationen für visuell zentrierte Aufgaben aus, doch ihr Umgang mit Inkonsistenzen zwischen den Modalitäten ist bisher wenig erforscht. Wir untersuchen die Modalitätspräferenzen von VLMs, wenn sie mit visuellen Daten und variierten textuellen Eingaben in visuell zentrierten Kontexten konfrontiert werden. Durch die Einführung textueller Variationen in vier visuell zentrierte Aufgaben und die Evaluierung von zehn Vision-Language Models (VLMs) entdecken wir ein Phänomen des „blinden Vertrauens in Text“: VLMs vertrauen bei Inkonsistenzen überproportional textuellen Daten gegenüber visuellen Daten, was zu erheblichen Leistungseinbußen bei manipuliertem Text führt und Sicherheitsbedenken aufwirft. Wir analysieren Faktoren, die diese Textverzerrung beeinflussen, darunter Instruktionsprompts, die Größe des Sprachmodells, Textrelevanz, Token-Reihenfolge und das Zusammenspiel zwischen visueller und textueller Gewissheit. Während bestimmte Faktoren, wie die Vergrößerung des Sprachmodells, die Textverzerrung leicht verringern, können andere, wie die Token-Reihenfolge, sie aufgrund von Positionsverzerrungen, die von Sprachmodellen geerbt werden, verstärken. Um dieses Problem zu adressieren, untersuchen wir überwachtes Fine-Tuning mit Textaugmentierung und zeigen dessen Wirksamkeit bei der Reduzierung der Textverzerrung. Zusätzlich liefern wir eine theoretische Analyse, die nahelegt, dass das Phänomen des blinden Vertrauens in Text auf ein Ungleichgewicht zwischen reinem Text und multimodalen Daten während des Trainings zurückzuführen sein könnte. Unsere Ergebnisse unterstreichen die Notwendigkeit eines ausgewogenen Trainings und einer sorgfältigen Berücksichtigung der Modalitätsinteraktionen in VLMs, um deren Robustheit und Zuverlässigkeit im Umgang mit Inkonsistenzen in multimodalen Daten zu verbessern.
English
Vision-Language Models (VLMs) excel in integrating visual and textual information for vision-centric tasks, but their handling of inconsistencies between modalities is underexplored. We investigate VLMs' modality preferences when faced with visual data and varied textual inputs in vision-centered settings. By introducing textual variations to four vision-centric tasks and evaluating ten Vision-Language Models (VLMs), we discover a ``blind faith in text'' phenomenon: VLMs disproportionately trust textual data over visual data when inconsistencies arise, leading to significant performance drops under corrupted text and raising safety concerns. We analyze factors influencing this text bias, including instruction prompts, language model size, text relevance, token order, and the interplay between visual and textual certainty. While certain factors, such as scaling up the language model size, slightly mitigate text bias, others like token order can exacerbate it due to positional biases inherited from language models. To address this issue, we explore supervised fine-tuning with text augmentation and demonstrate its effectiveness in reducing text bias. Additionally, we provide a theoretical analysis suggesting that the blind faith in text phenomenon may stem from an imbalance of pure text and multi-modal data during training. Our findings highlight the need for balanced training and careful consideration of modality interactions in VLMs to enhance their robustness and reliability in handling multi-modal data inconsistencies.

Summary

AI-Generated Summary

PDF82March 11, 2025