SAE 기반 표현 공학을 통해 LLMs의 지식 선택 행동 조절하기
Steering Knowledge Selection Behaviours in LLMs via SAE-Based Representation Engineering
October 21, 2024
저자: Yu Zhao, Alessio Devoto, Giwon Hong, Xiaotang Du, Aryo Pradipta Gema, Hongru Wang, Kam-Fai Wong, Pasquale Minervini
cs.AI
초록
대형 언어 모델(Large language models, LLMs)은 매개변수에 상당한 양의 사실적 지식을 저장할 수 있습니다. 그러나, 그들의 매개변수 지식은 맥락에서 제공된 정보와 충돌할 수 있습니다. 이러한 현상은 맥락-기억 지식 충돌(context-memory knowledge conflicts)로 알려져 있으며, 이는 모델이 오래된 또는 부정확한 정보에 의존하는 것과 같은 원치 않는 행동을 유발할 수 있습니다. LLMs의 내부 활성화를 분석하면, 중간 레이어에서 지식 충돌의 신호를 내부적으로 등록할 수 있다는 것을 발견할 수 있습니다. 이러한 신호는 지식 충돌이 발생하는지 여부를 감지하고 추론 시간 개입 전략을 사용하여 해결하는 데 도움이 됩니다. 본 연구에서는 SpARE이라는 훈련 없는 표현 공학 방법을 제안합니다. 이 방법은 사전 훈련된 희소 오토인코더(Sparse auto-encoders, SAEs)를 사용하여 LLMs의 지식 선택 행동을 제어합니다. SpARE은 지식 선택 행동을 제어하는 기능적 특징을 식별하고, 이를 사용하여 추론 시간에 LLMs의 내부 활성화를 편집합니다. 실험 결과는 SpARE이 오픈 도메인 질문-응답 작업에서 지식 충돌을 해결하기 위해 지식 소스의 사용을 효과적으로 제어할 수 있음을 보여주며, 기존의 표현 공학 방법(+10%) 및 대조적 디코딩 방법(+15%)을 능가한다는 것을 보여줍니다.
English
Large language models (LLMs) can store a significant amount of factual
knowledge in their parameters. However, their parametric knowledge may conflict
with the information provided in the context -- this phenomenon, known as
context-memory knowledge conflicts, can lead to undesirable model
behaviour, such as reliance on outdated or incorrect information. Analysing the
internal activations of LLMs, we find that they can internally register the
signals of knowledge conflict at mid-layers. Such signals allow us to detect
whether a knowledge conflict occurs and use inference-time intervention
strategies to resolve it. In this work, we propose SpARE, a
training-free representation engineering method that uses pre-trained
sparse auto-encoders (SAEs) to control the knowledge selection behaviour of
LLMs. SpARE identifies the functional features that control the
knowledge selection behaviours and applies them to edit the internal
activations of LLMs at inference time. Our experimental results show that
SpARE can effectively control the usage of either knowledge source to
resolve knowledge conflict in open-domain question-answering tasks, surpassing
existing representation engineering methods (+10%) as well as contrastive
decoding methods (+15%).Summary
AI-Generated Summary