환각 완화를 위한 시각-언어 표현 해석 및 편집
Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations
October 3, 2024
저자: Nick Jiang, Anish Kachinthaya, Suzie Petryk, Yossi Gandelsman
cs.AI
초록
우리는 모델 크기와 훈련의 발전에도 불구하고 지속적인 과제인 환각을 해결하기 위해 시각-언어 모델(VLMs)의 내부 표현을 조사합니다. VLMs의 내부 이미지 표현을 언어 어휘로 투영하고, 실제 객체보다 환각된 객체에 대해 더 확신 있는 출력 확률을 관찰합니다. 우리는 또한 이러한 출력 확률을 사용하여 실제 객체를 공간적으로 지역화합니다. 이 접근법을 발전시켜, 환각을 제거하는 지식 소거 알고리즘을 소개합니다. 이 알고리즘은 이미지 특징을 환각된 객체 특징에 대해 직교화함으로써 환각을 제거합니다. 우리는 모델의 잠재적 표현에 대한 목표 지향적 편집이 COCO2014 데이터셋에서 환각을 최대 25.7%까지 줄일 수 있음을 보여주며 성능을 유지합니다. 우리의 연구 결과는 VLMs의 잠재적 표현에 대한 깊은 이해가 신뢰성을 향상시키고 제로샷 분할과 같은 혁신적인 기능을 가능하게 하는 방법을 보여줍니다.
English
We investigate the internal representations of vision-language models (VLMs)
to address hallucinations, a persistent challenge despite advances in model
size and training. We project VLMs' internal image representations to their
language vocabulary and observe more confident output probabilities on real
objects than hallucinated objects. We additionally use these output
probabilities to spatially localize real objects. Building on this approach, we
introduce a knowledge erasure algorithm that removes hallucinations by linearly
orthogonalizing image features with respect to hallucinated object features. We
show that targeted edits to a model's latent representations can reduce
hallucinations by up to 25.7% on the COCO2014 dataset while preserving
performance. Our findings demonstrate how a deeper understanding of VLMs'
latent representations can enhance reliability and enable novel capabilities,
such as zero-shot segmentation.Summary
AI-Generated Summary