Ken ik deze entiteit? Kennisbewustzijn en hallucinaties in Taalmodellen

Samenvatting

Hallucinaties bij grote taalmodellen zijn een veelvoorkomend probleem, maar de mechanismen achter het al dan niet hallucineren van modellen zijn slecht begrepen, wat onze mogelijkheid om dit probleem op te lossen beperkt. Door spaarzame auto-encoders te gebruiken als een interpretatiehulpmiddel, ontdekken we dat een sleutelonderdeel van deze mechanismen entiteitsherkenning is, waarbij het model detecteert of het een entiteit is waarover het feiten kan herinneren. Spaarzame auto-encoders onthullen betekenisvolle richtingen in de representatieruimte, die detecteren of het model een entiteit herkent, bijvoorbeeld door te detecteren dat het geen informatie heeft over een atleet of een film. Dit suggereert dat modellen zelfkennis kunnen hebben: interne representaties over hun eigen capaciteiten. Deze richtingen zijn causaal relevant: ze zijn in staat om het model te sturen om vragen over bekende entiteiten te weigeren of attributen van onbekende entiteiten te hallucineren wanneer het anders zou weigeren. We tonen aan dat ondanks dat de spaarzame auto-encoders zijn getraind op het basismodel, deze richtingen een causaal effect hebben op het weigeringsgedrag van het chatmodel, wat suggereert dat het finetunen van de chat dit bestaande mechanisme heeft hergebruikt. Bovendien bieden we een eerste verkenning van de mechanistische rol van deze richtingen in het model, waarbij we vinden dat ze de aandacht van downstream heads verstoren die doorgaans entiteitattributen naar het laatste token verplaatsen.

English

Hallucinations in large language models are a widespread problem, yet the mechanisms behind whether models will hallucinate are poorly understood, limiting our ability to solve this problem. Using sparse autoencoders as an interpretability tool, we discover that a key part of these mechanisms is entity recognition, where the model detects if an entity is one it can recall facts about. Sparse autoencoders uncover meaningful directions in the representation space, these detect whether the model recognizes an entity, e.g. detecting it doesn't know about an athlete or a movie. This suggests that models can have self-knowledge: internal representations about their own capabilities. These directions are causally relevant: capable of steering the model to refuse to answer questions about known entities, or to hallucinate attributes of unknown entities when it would otherwise refuse. We demonstrate that despite the sparse autoencoders being trained on the base model, these directions have a causal effect on the chat model's refusal behavior, suggesting that chat finetuning has repurposed this existing mechanism. Furthermore, we provide an initial exploration into the mechanistic role of these directions in the model, finding that they disrupt the attention of downstream heads that typically move entity attributes to the final token.

Ken ik deze entiteit? Kennisbewustzijn en hallucinaties in Taalmodellen

Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models

Samenvatting

Summary

Support