이 Entity를 알고 있을까? 언어 모델에서의 지식 인식과 환각
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
November 21, 2024
저자: Javier Ferrando, Oscar Obeso, Senthooran Rajamanoharan, Neel Nanda
cs.AI
초록
대형 언어 모델에서의 환각은 널리 퍼져 있는 문제이지만, 모델이 환각을 할지 여부의 메커니즘은 잘 이해되지 않아 이 문제를 해결하는 능력이 제한되고 있다. 해석 가능성 도구로 희소 오토인코더를 사용하여, 이러한 메커니즘의 핵심 부분이 개체 인식인 것을 발견했다. 여기서 모델은 개체가 자신이 사실을 기억할 수 있는 개체인지 감지한다. 희소 오토인코더는 표현 공간에서 의미 있는 방향을 발견하며, 이러한 방향은 모델이 개체를 인식하는지 여부를 감지한다. 예를 들어, 모델이 운동 선수나 영화에 대해 알지 못한다는 것을 감지한다. 이는 모델이 자체 능력에 대한 내부 표현, 즉 자기 인식을 가질 수 있다는 것을 시사한다. 이러한 방향은 인과적으로 관련이 있으며, 알려진 개체에 대한 질문에 대답을 거부하도록 모델을 조종하거나, 그렇지 않으면 알려지지 않은 개체의 속성을 환각하도록 할 수 있다. 우리는 희소 오토인코더가 기본 모델에서 훈련되었음에도 불구하고, 이러한 방향이 채팅 모델의 거부 행동에 인과적 영향을 미치는 것을 증명하며, 채팅 파인튜닝이 기존 메커니즘을 재활용했음을 시사한다. 더 나아가, 우리는 모델에서 이러한 방향의 메커니스틱 역할에 대한 초기 탐구를 제공하며, 이 방향이 일반적으로 개체 속성을 최종 토큰으로 이동시키는 하류 헤드의 주의를 방해한다는 것을 발견했다.
English
Hallucinations in large language models are a widespread problem, yet the
mechanisms behind whether models will hallucinate are poorly understood,
limiting our ability to solve this problem. Using sparse autoencoders as an
interpretability tool, we discover that a key part of these mechanisms is
entity recognition, where the model detects if an entity is one it can recall
facts about. Sparse autoencoders uncover meaningful directions in the
representation space, these detect whether the model recognizes an entity, e.g.
detecting it doesn't know about an athlete or a movie. This suggests that
models can have self-knowledge: internal representations about their own
capabilities. These directions are causally relevant: capable of steering the
model to refuse to answer questions about known entities, or to hallucinate
attributes of unknown entities when it would otherwise refuse. We demonstrate
that despite the sparse autoencoders being trained on the base model, these
directions have a causal effect on the chat model's refusal behavior,
suggesting that chat finetuning has repurposed this existing mechanism.
Furthermore, we provide an initial exploration into the mechanistic role of
these directions in the model, finding that they disrupt the attention of
downstream heads that typically move entity attributes to the final token.Summary
AI-Generated Summary