Est-ce que je connais cette entité ? Conscience des connaissances et hallucinations dans les modèles de langage
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
November 21, 2024
Auteurs: Javier Ferrando, Oscar Obeso, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Résumé
Les hallucinations dans les grands modèles de langage sont un problème répandu, cependant, les mécanismes déterminant si les modèles vont halluciner sont mal compris, limitant notre capacité à résoudre ce problème. En utilisant des autoencodeurs parcimonieux comme outil d'interprétabilité, nous découvrons qu'une partie clé de ces mécanismes est la reconnaissance des entités, où le modèle détecte si une entité est une dont il peut se rappeler des faits. Les autoencodeurs parcimonieux révèlent des directions significatives dans l'espace de représentation, qui permettent de détecter si le modèle reconnaît une entité, par exemple en détectant s'il ne connaît pas un athlète ou un film. Cela suggère que les modèles peuvent avoir une connaissance de soi : des représentations internes sur leurs propres capacités. Ces directions sont causalement pertinentes : capables de guider le modèle pour refuser de répondre à des questions sur des entités connues, ou pour halluciner des attributs d'entités inconnues quand il refuserait sinon. Nous démontrons que malgré les autoencodeurs parcimonieux étant entraînés sur le modèle de base, ces directions ont un effet causal sur le comportement de refus du modèle de chat, suggérant que le fine-tuning du chat a réutilisé ce mécanisme existant. De plus, nous effectuons une exploration initiale du rôle mécaniste de ces directions dans le modèle, constatant qu'elles perturbent l'attention des têtes aval qui déplacent généralement les attributs d'entités vers le jeton final.
English
Hallucinations in large language models are a widespread problem, yet the
mechanisms behind whether models will hallucinate are poorly understood,
limiting our ability to solve this problem. Using sparse autoencoders as an
interpretability tool, we discover that a key part of these mechanisms is
entity recognition, where the model detects if an entity is one it can recall
facts about. Sparse autoencoders uncover meaningful directions in the
representation space, these detect whether the model recognizes an entity, e.g.
detecting it doesn't know about an athlete or a movie. This suggests that
models can have self-knowledge: internal representations about their own
capabilities. These directions are causally relevant: capable of steering the
model to refuse to answer questions about known entities, or to hallucinate
attributes of unknown entities when it would otherwise refuse. We demonstrate
that despite the sparse autoencoders being trained on the base model, these
directions have a causal effect on the chat model's refusal behavior,
suggesting that chat finetuning has repurposed this existing mechanism.
Furthermore, we provide an initial exploration into the mechanistic role of
these directions in the model, finding that they disrupt the attention of
downstream heads that typically move entity attributes to the final token.Summary
AI-Generated Summary