Wohin schauen große Vision-Sprach-Modelle, wenn sie Fragen beantworten?
Where do Large Vision-Language Models Look at when Answering Questions?
March 18, 2025
Autoren: Xiaoying Xing, Chia-Wen Kuo, Li Fuxin, Yulei Niu, Fan Chen, Ming Li, Ying Wu, Longyin Wen, Sijie Zhu
cs.AI
Zusammenfassung
Große Vision-Sprach-Modelle (LVLMs) haben vielversprechende Leistungen bei Aufgaben zur Vision-Sprach-Verständnis und -Argumentation gezeigt. Allerdings sind ihre visuellen Verständnisprozesse noch weitgehend unerforscht. Eine grundlegende Frage stellt sich: In welchem Maße verlassen sich LVLMs auf visuelle Eingaben, und welche Bildregionen tragen zu ihren Antworten bei? Es ist nicht trivial, die freie Generierung von LVLMs zu interpretieren, bedingt durch ihre komplexe visuelle Architektur (z.B. mehrere Encoder und Multi-Resolution) und variabel lange Ausgaben. In diesem Papier erweitern wir bestehende Heatmap-Visualisierungsmethoden (z.B. iGOS++), um LVLMs für offene visuelle Frage-Antwort-Aufgaben zu unterstützen. Wir schlagen eine Methode vor, um visuell relevante Tokens auszuwählen, die die Relevanz zwischen generierten Antworten und Eingabebild widerspiegeln. Darüber hinaus führen wir eine umfassende Analyse von state-of-the-art LVLMs auf Benchmarks durch, die visuelle Informationen zur Beantwortung erfordern. Unsere Ergebnisse bieten mehrere Einblicke in das Verhalten von LVLMs, einschließlich der Beziehung zwischen Fokusregion und Antwortkorrektheit, Unterschiede in der visuellen Aufmerksamkeit zwischen Architekturen und den Einfluss der Skalierung von LLMs auf das visuelle Verständnis. Der Code und die Daten sind verfügbar unter https://github.com/bytedance/LVLM_Interpretation.
English
Large Vision-Language Models (LVLMs) have shown promising performance in
vision-language understanding and reasoning tasks. However, their visual
understanding behaviors remain underexplored. A fundamental question arises: to
what extent do LVLMs rely on visual input, and which image regions contribute
to their responses? It is non-trivial to interpret the free-form generation of
LVLMs due to their complicated visual architecture (e.g., multiple encoders and
multi-resolution) and variable-length outputs. In this paper, we extend
existing heatmap visualization methods (e.g., iGOS++) to support LVLMs for
open-ended visual question answering. We propose a method to select visually
relevant tokens that reflect the relevance between generated answers and input
image. Furthermore, we conduct a comprehensive analysis of state-of-the-art
LVLMs on benchmarks designed to require visual information to answer. Our
findings offer several insights into LVLM behavior, including the relationship
between focus region and answer correctness, differences in visual attention
across architectures, and the impact of LLM scale on visual understanding. The
code and data are available at
https://github.com/bytedance/LVLM_Interpretation.Summary
AI-Generated Summary