Conosco Questa Entità? Consapevolezza della Conoscenza e Allucinazioni nei Modelli Linguistici
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
November 21, 2024
Autori: Javier Ferrando, Oscar Obeso, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Abstract
Le allucinazioni nei grandi modelli linguistici sono un problema diffuso, tuttavia i meccanismi alla base della presenza di allucinazioni nei modelli sono poco compresi, limitando la nostra capacità di risolvere questo problema. Utilizzando autoencoder sparsi come strumento di interpretazione, scopriamo che una parte chiave di tali meccanismi è il riconoscimento delle entità, dove il modello rileva se un'entità è una di cui può ricordare dei fatti. Gli autoencoder sparsi rivelano direzioni significative nello spazio di rappresentazione, che individuano se il modello riconosce un'entità, ad esempio rilevando che non conosce un atleta o un film. Ciò suggerisce che i modelli possono avere auto-conoscenza: rappresentazioni interne sulle proprie capacità. Queste direzioni sono causalmente rilevanti: capaci di guidare il modello a rifiutarsi di rispondere a domande su entità conosciute, o di allucinare attributi di entità sconosciute quando altrimenti si rifiuterebbe. Dimostriamo che nonostante gli autoencoder sparsi siano stati addestrati sul modello di base, queste direzioni hanno un effetto causale sul comportamento di rifiuto del modello di chat, suggerendo che il raffinamento della chat ha riutilizzato questo meccanismo esistente. Inoltre, forniamo una prima esplorazione del ruolo meccanicistico di queste direzioni nel modello, scoprendo che disturbano l'attenzione delle testate a valle che tipicamente spostano gli attributi dell'entità al token finale.
English
Hallucinations in large language models are a widespread problem, yet the
mechanisms behind whether models will hallucinate are poorly understood,
limiting our ability to solve this problem. Using sparse autoencoders as an
interpretability tool, we discover that a key part of these mechanisms is
entity recognition, where the model detects if an entity is one it can recall
facts about. Sparse autoencoders uncover meaningful directions in the
representation space, these detect whether the model recognizes an entity, e.g.
detecting it doesn't know about an athlete or a movie. This suggests that
models can have self-knowledge: internal representations about their own
capabilities. These directions are causally relevant: capable of steering the
model to refuse to answer questions about known entities, or to hallucinate
attributes of unknown entities when it would otherwise refuse. We demonstrate
that despite the sparse autoencoders being trained on the base model, these
directions have a causal effect on the chat model's refusal behavior,
suggesting that chat finetuning has repurposed this existing mechanism.
Furthermore, we provide an initial exploration into the mechanistic role of
these directions in the model, finding that they disrupt the attention of
downstream heads that typically move entity attributes to the final token.Summary
AI-Generated Summary