동심원 인과 주의를 통해 객체 환각 완화하기

Mitigating Object Hallucination via Concentric Causal Attention

October 21, 2024
저자: Yun Xing, Yiheng Li, Ivan Laptev, Shijian Lu
cs.AI

초록

최근 대형 비전 언어 모델(LVLMs)은 다중 모달 쿼리에 대한 현저한 제로샷 대화 및 추론 능력을 보여줍니다. 그러나, 그들은 객체 환각이라는 현상에 시달리는데, 이는 LVLMs가 이미지 입력과 사실적으로 일치하지 않는 텍스트 응답을 생성하기 쉽다는 것을 의미합니다. 저희의 실험 연구는 객체 환각이 기존 LVLMs에서 널리 사용되는 위치 종속성 모델링 디자인인 Rotary Position Encoding (RoPE)와 밀접하게 관련이 있다는 것을 밝혀냈습니다. RoPE의 장기 감쇠로 인해, LVLMs는 다중 모달 입력 시퀀스에서 관련 시각적 단서가 명령 토큰으로부터 먼 거리에 있을 때 더 많이 환각하는 경향이 있습니다. 또한, 다중 모달 정렬 중 시각적 토큰의 순차적 순서를 반전시킬 때 유사한 효과를 관찰합니다. 우리의 실험 결과는 RoPE의 장기 감쇠가 LVLMs가 먼 거리를 가로지르는 시각-명령 상호작용을 포착하는 데 어려움을 겪게 한다는 것을 보여줍니다. 저희는 RoPE의 장기 감쇠에 대응하는 간단하면서 효과적인 위치 정렬 전략인 Concentric Causal Attention (CCA)를 제안합니다. CCA를 사용하면 시각적 토큰이 명령 토큰과 더 잘 상호작용할 수 있어 모델의 지각 능력을 향상시키고 객체 환각을 완화할 수 있습니다. 별다른 장식 없이, 저희의 위치 정렬 방법은 다중 객체 환각 벤치마크에서 기존의 환각 완화 전략을 크게 능가합니다.
English
Recent Large Vision Language Models (LVLMs) present remarkable zero-shot conversational and reasoning capabilities given multimodal queries. Nevertheless, they suffer from object hallucination, a phenomenon where LVLMs are prone to generate textual responses not factually aligned with image inputs. Our pilot study reveals that object hallucination is closely tied with Rotary Position Encoding (RoPE), a widely adopted positional dependency modeling design in existing LVLMs. Due to the long-term decay in RoPE, LVLMs tend to hallucinate more when relevant visual cues are distant from instruction tokens in the multimodal input sequence. Additionally, we observe a similar effect when reversing the sequential order of visual tokens during multimodal alignment. Our tests indicate that long-term decay in RoPE poses challenges to LVLMs while capturing visual-instruction interactions across long distances. We propose Concentric Causal Attention (CCA), a simple yet effective positional alignment strategy that mitigates the impact of RoPE long-term decay in LVLMs by naturally reducing relative distance between visual and instruction tokens. With CCA, visual tokens can better interact with instruction tokens, thereby enhancing model's perception capability and alleviating object hallucination. Without bells and whistles, our positional alignment method surpasses existing hallucination mitigation strategies by large margins on multiple object hallucination benchmarks.

Summary

AI-Generated Summary

PDF142November 16, 2024