Atténuation de l'hallucination d'objets via une Attention Causale Concentrique
Mitigating Object Hallucination via Concentric Causal Attention
October 21, 2024
Auteurs: Yun Xing, Yiheng Li, Ivan Laptev, Shijian Lu
cs.AI
Résumé
Les récents grands modèles de langage et vision (LVLM) présentent des capacités remarquables de conversation et de raisonnement sans entraînement, étant donné des requêtes multimodales. Cependant, ils souffrent d'hallucinations d'objets, un phénomène où les LVLM ont tendance à générer des réponses textuelles qui ne sont pas factuellement alignées avec les entrées d'image. Notre étude pilote révèle que l'hallucination d'objets est étroitement liée au Codage de Position Rotatif (RoPE), un modèle de modélisation de dépendance positionnelle largement adopté dans les LVLM existants. En raison de la décroissance à long terme dans RoPE, les LVLM ont tendance à halluciner davantage lorsque les indices visuels pertinents sont éloignés des jetons d'instruction dans la séquence d'entrée multimodale. De plus, nous observons un effet similaire lors de l'inversion de l'ordre séquentiel des jetons visuels lors de l'alignement multimodal. Nos tests indiquent que la décroissance à long terme dans RoPE pose des défis aux LVLM lors de la capture des interactions visuelles-instruction sur de longues distances. Nous proposons l'Attention Causale Concentrique (CCA), une stratégie d'alignement positionnel simple mais efficace qui atténue l'impact de la décroissance à long terme de RoPE dans les LVLM en réduisant naturellement la distance relative entre les jetons visuels et d'instruction. Avec CCA, les jetons visuels peuvent mieux interagir avec les jetons d'instruction, améliorant ainsi la capacité de perception du modèle et atténuant l'hallucination d'objets. Sans artifices, notre méthode d'alignement positionnel surpasse de loin les stratégies existantes de mitigation de l'hallucination sur plusieurs référentiels d'hallucination d'objets.
English
Recent Large Vision Language Models (LVLMs) present remarkable zero-shot
conversational and reasoning capabilities given multimodal queries.
Nevertheless, they suffer from object hallucination, a phenomenon where LVLMs
are prone to generate textual responses not factually aligned with image
inputs. Our pilot study reveals that object hallucination is closely tied with
Rotary Position Encoding (RoPE), a widely adopted positional dependency
modeling design in existing LVLMs. Due to the long-term decay in RoPE, LVLMs
tend to hallucinate more when relevant visual cues are distant from instruction
tokens in the multimodal input sequence. Additionally, we observe a similar
effect when reversing the sequential order of visual tokens during multimodal
alignment. Our tests indicate that long-term decay in RoPE poses challenges to
LVLMs while capturing visual-instruction interactions across long distances. We
propose Concentric Causal Attention (CCA), a simple yet effective positional
alignment strategy that mitigates the impact of RoPE long-term decay in LVLMs
by naturally reducing relative distance between visual and instruction tokens.
With CCA, visual tokens can better interact with instruction tokens, thereby
enhancing model's perception capability and alleviating object hallucination.
Without bells and whistles, our positional alignment method surpasses existing
hallucination mitigation strategies by large margins on multiple object
hallucination benchmarks.Summary
AI-Generated Summary