Ken ik deze entiteit? Kennisbewustzijn en hallucinaties in Taalmodellen
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
November 21, 2024
Auteurs: Javier Ferrando, Oscar Obeso, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Samenvatting
Hallucinaties bij grote taalmodellen zijn een veelvoorkomend probleem, maar de mechanismen achter het al dan niet hallucineren van modellen zijn slecht begrepen, wat onze mogelijkheid om dit probleem op te lossen beperkt. Door spaarzame auto-encoders te gebruiken als een interpretatiehulpmiddel, ontdekken we dat een sleutelonderdeel van deze mechanismen entiteitsherkenning is, waarbij het model detecteert of het een entiteit is waarover het feiten kan herinneren. Spaarzame auto-encoders onthullen betekenisvolle richtingen in de representatieruimte, die detecteren of het model een entiteit herkent, bijvoorbeeld door te detecteren dat het geen informatie heeft over een atleet of een film. Dit suggereert dat modellen zelfkennis kunnen hebben: interne representaties over hun eigen capaciteiten. Deze richtingen zijn causaal relevant: ze zijn in staat om het model te sturen om vragen over bekende entiteiten te weigeren of attributen van onbekende entiteiten te hallucineren wanneer het anders zou weigeren. We tonen aan dat ondanks dat de spaarzame auto-encoders zijn getraind op het basismodel, deze richtingen een causaal effect hebben op het weigeringsgedrag van het chatmodel, wat suggereert dat het finetunen van de chat dit bestaande mechanisme heeft hergebruikt. Bovendien bieden we een eerste verkenning van de mechanistische rol van deze richtingen in het model, waarbij we vinden dat ze de aandacht van downstream heads verstoren die doorgaans entiteitattributen naar het laatste token verplaatsen.
English
Hallucinations in large language models are a widespread problem, yet the
mechanisms behind whether models will hallucinate are poorly understood,
limiting our ability to solve this problem. Using sparse autoencoders as an
interpretability tool, we discover that a key part of these mechanisms is
entity recognition, where the model detects if an entity is one it can recall
facts about. Sparse autoencoders uncover meaningful directions in the
representation space, these detect whether the model recognizes an entity, e.g.
detecting it doesn't know about an athlete or a movie. This suggests that
models can have self-knowledge: internal representations about their own
capabilities. These directions are causally relevant: capable of steering the
model to refuse to answer questions about known entities, or to hallucinate
attributes of unknown entities when it would otherwise refuse. We demonstrate
that despite the sparse autoencoders being trained on the base model, these
directions have a causal effect on the chat model's refusal behavior,
suggesting that chat finetuning has repurposed this existing mechanism.
Furthermore, we provide an initial exploration into the mechanistic role of
these directions in the model, finding that they disrupt the attention of
downstream heads that typically move entity attributes to the final token.Summary
AI-Generated Summary