Ausgleich der unausgewogenen Aufmerksamkeit zur Minderung der kontextbezogenen Halluzination großer Vision-Language-Modelle.
Fixing Imbalanced Attention to Mitigate In-Context Hallucination of Large Vision-Language Model
January 21, 2025
Autoren: Kazi Hasan Ibn Arif, Sajib Acharjee Dip, Khizar Hussain, Lang Zhang, Chris Thomas
cs.AI
Zusammenfassung
Große Vision-Sprach-Modelle (LVLMs) haben bemerkenswerte Fähigkeiten bei der Erfassung und Beschreibung visueller Inhalte gezeigt und erzielen Spitzenleistungen bei verschiedenen Vision-Sprach-Aufgaben. Allerdings zeigen diese Modelle häufig Halluzinationsverhalten, bei dem sie Beschreibungen generieren, die Objekte oder Details enthalten, die im Eingabebild fehlen. Unsere Arbeit untersucht dieses Phänomen, indem wir Aufmerksamkeitsmuster über Transformer-Schichten und -Köpfe analysieren und aufdecken, dass Halluzinationen oft aus einem fortschreitenden Abbau der visuellen Verankerung in tieferen Schichten resultieren. Wir schlagen einen neuartigen Ansatz zur Aufmerksamkeitsmodifikation vor, der selektive Token-Betonung und kopfspezifische Modulation kombiniert, um die visuelle Verankerung während des Generierungsprozesses aufrechtzuerhalten. Unsere Methode führt zwei Schlüsselkomponenten ein: (1) einen Dual-Stream-Token-Auswahlmechanismus, der sowohl lokal informative als auch räumlich bedeutsame visuelle Tokens identifiziert und priorisiert, und (2) eine Aufmerksamkeitskopf-spezifische Modulationsstrategie, die die Verarbeitung visueller Informationen differentiell verstärkt, basierend auf der gemessenen visuellen Empfindlichkeit einzelner Aufmerksamkeitsköpfe. Durch umfangreiche Experimente auf dem MSCOCO-Datensatz zeigen wir, dass unser Ansatz die Halluzinationsraten um bis zu 62,3\% im Vergleich zu Basislinienmodellen reduziert, während die vergleichbare Leistung bei den Aufgaben beibehalten wird. Unsere Analyse zeigt, dass die selektive Modulation von Tokens über Aufmerksamkeitsköpfe mit unterschiedlichen Ebenen visueller Empfindlichkeit die visuelle Verankerung signifikant verbessern kann, ohne dass eine Neuschulung des Modells erforderlich ist.
English
Large Vision Language Models (LVLMs) have demonstrated remarkable
capabilities in understanding and describing visual content, achieving
state-of-the-art performance across various vision-language tasks. However,
these models frequently exhibit hallucination behavior, where they generate
descriptions containing objects or details absent in the input image. Our work
investigates this phenomenon by analyzing attention patterns across transformer
layers and heads, revealing that hallucinations often stem from progressive
degradation of visual grounding in deeper layers. We propose a novel attention
modification approach that combines selective token emphasis and head-specific
modulation to maintain visual grounding throughout the generation process. Our
method introduces two key components: (1) a dual-stream token selection
mechanism that identifies and prioritizes both locally informative and
spatially significant visual tokens, and (2) an attention head-specific
modulation strategy that differentially amplifies visual information processing
based on measured visual sensitivity of individual attention heads. Through
extensive experimentation on the MSCOCO dataset, we demonstrate that our
approach reduces hallucination rates by up to 62.3\% compared to baseline
models while maintaining comparable task performance. Our analysis reveals that
selectively modulating tokens across attention heads with varying levels of
visual sensitivity can significantly improve visual grounding without requiring
model retraining.Summary
AI-Generated Summary