토큰의 숨겨진 삶: 시각 정보 조절을 통해 대형 비전-언어 모델의 환각 감소
The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering
February 5, 2025
저자: Zhuowei Li, Haizhou Shi, Yunhe Gao, Di Liu, Zhenting Wang, Yuxiao Chen, Ting Liu, Long Zhao, Hao Wang, Dimitris N. Metaxas
cs.AI
초록
대규모 비전-언어 모델(LVLMs)은 텍스트 및 시각적 입력 모두에 효과적으로 추론할 수 있지만, 문법적으로 일관된 내용을 환각하지만 시각적으로 미지원된 콘텐츠를 생성하는 경향이 있습니다. 본 논문에서는 LVLMs가 정보를 처리하는 방식을 밝힘으로써 환각의 내부 역학을 조사하였습니다. 생성 과정 전체에서 토큰 로짓 순위를 조사하여, 정보 처리 방식에서 세 가지 주요 패턴을 밝혀내었습니다: (1) 점진적 시각 정보 손실 - 시각적으로 미지원된 토큰이 생성 과정 중에 점차적으로 선호되지 않게 되는 것, (2) 초기 활성화 - 의미 있는 토큰이 최종 레이어보다 더 일찍 활성화의 절정을 달성하는 것, (3) 숨겨진 진짜 정보 - 시각적으로 미지원된 토큰들은 결정되지는 않지만 추론 시에 상대적으로 높은 순위를 유지합니다. 이러한 통찰력을 기반으로, 우리는 VISTA(토큰 로짓 보강을 통한 시각 정보 조절)를 제안합니다. 이는 훈련 없이 추론 시간 개입 프레임워크로, 환각을 줄이고 진짜 정보를 촉진합니다. VISTA는 시각 정보를 활성화 공간에서 강화하고, 의미 있는 디코딩을 촉진하기 위해 초기 레이어 활성화를 활용하는 두 가지 보완적 접근법을 결합하여 작동합니다. 기존 방법과 비교했을 때, VISTA는 외부 감독이 필요 없으며 다양한 디코딩 전략에 적용할 수 있습니다. 광범위한 실험 결과, VISTA는 평균적으로 평가된 오픈엔드 생성 작업에서 환각을 약 40% 줄이며, 3가지 디코딩 전략에 걸쳐 4가지 아키텍처에서 4개의 벤치마크에서 기존 방법을 일관되게 능가합니다.
English
Large Vision-Language Models (LVLMs) can reason effectively over both textual
and visual inputs, but they tend to hallucinate syntactically coherent yet
visually ungrounded contents. In this paper, we investigate the internal
dynamics of hallucination by examining the tokens logits rankings throughout
the generation process, revealing three key patterns in how LVLMs process
information: (1) gradual visual information loss -- visually grounded tokens
gradually become less favored throughout generation, and (2) early excitation
-- semantically meaningful tokens achieve peak activation in the layers earlier
than the final layer. (3) hidden genuine information -- visually grounded
tokens though not being eventually decided still retain relatively high
rankings at inference. Based on these insights, we propose VISTA (Visual
Information Steering with Token-logit Augmentation), a training-free
inference-time intervention framework that reduces hallucination while
promoting genuine information. VISTA works by combining two complementary
approaches: reinforcing visual information in activation space and leveraging
early layer activations to promote semantically meaningful decoding. Compared
to existing methods, VISTA requires no external supervision and is applicable
to various decoding strategies. Extensive experiments show that VISTA on
average reduces hallucination by abount 40% on evaluated open-ended generation
task, and it consistently outperforms existing methods on four benchmarks
across four architectures under three decoding strategies.Summary
AI-Generated Summary