Kenne ich dieses Wesen? Wissensbewusstsein und Halluzinationen in Sprachmodellen
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
November 21, 2024
Autoren: Javier Ferrando, Oscar Obeso, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Zusammenfassung
Halluzinationen in großen Sprachmodellen sind ein weit verbreitetes Problem, jedoch sind die Mechanismen, die bestimmen, ob Modelle halluzinieren werden, schlecht verstanden, was unsere Fähigkeit, dieses Problem zu lösen, einschränkt. Durch die Verwendung von dünn besetzten Autoencodern als Interpretationswerkzeug entdecken wir, dass ein Schlüsselaspekt dieser Mechanismen die Erkennung von Entitäten ist, bei der das Modell feststellt, ob es sich um eine Entität handelt, zu der es Fakten abrufen kann. Dünne besetzte Autoencoder decken bedeutungsvolle Richtungen im Repräsentationsraum auf, die erkennen, ob das Modell eine Entität erkennt, z. B. indem es feststellt, dass es nichts über einen Sportler oder einen Film weiß. Dies legt nahe, dass Modelle Selbstwissen haben können: interne Repräsentationen über ihre eigenen Fähigkeiten. Diese Richtungen sind kausal relevant: Sie sind in der Lage, das Modell dazu zu bringen, Fragen zu bekannten Entitäten abzulehnen oder Attribute von unbekannten Entitäten zu halluzinieren, wenn es dies sonst ablehnen würde. Wir zeigen, dass trotz der Schulung der dünn besetzten Autoencoder auf dem Basismodell diese Richtungen eine kausale Wirkung auf das Ablehnungsverhalten des Chat-Modells haben, was darauf hindeutet, dass das Feintuning des Chats diesen bestehenden Mechanismus umfunktioniert hat. Darüber hinaus bieten wir eine erste Erkundung der mechanistischen Rolle dieser Richtungen im Modell an und stellen fest, dass sie die Aufmerksamkeit der nachgelagerten Köpfe stören, die normalerweise Entitätsattribute zum endgültigen Token verschieben.
English
Hallucinations in large language models are a widespread problem, yet the
mechanisms behind whether models will hallucinate are poorly understood,
limiting our ability to solve this problem. Using sparse autoencoders as an
interpretability tool, we discover that a key part of these mechanisms is
entity recognition, where the model detects if an entity is one it can recall
facts about. Sparse autoencoders uncover meaningful directions in the
representation space, these detect whether the model recognizes an entity, e.g.
detecting it doesn't know about an athlete or a movie. This suggests that
models can have self-knowledge: internal representations about their own
capabilities. These directions are causally relevant: capable of steering the
model to refuse to answer questions about known entities, or to hallucinate
attributes of unknown entities when it would otherwise refuse. We demonstrate
that despite the sparse autoencoders being trained on the base model, these
directions have a causal effect on the chat model's refusal behavior,
suggesting that chat finetuning has repurposed this existing mechanism.
Furthermore, we provide an initial exploration into the mechanistic role of
these directions in the model, finding that they disrupt the attention of
downstream heads that typically move entity attributes to the final token.Summary
AI-Generated Summary