DeCoRe : Décodage par Contraste des Têtes de Récupération pour Atténuer les Hallucinations

Résumé

Les grands modèles de langage (LLM) hallucinent souvent, produisant des sorties non fidèles ou incorrectes sur le plan factuel en déformant le contexte fourni ou en rappelant incorrectement des connaissances internes. Des études récentes ont identifié des têtes d'attention spécifiques au sein de l'architecture Transformer, appelées têtes de récupération, responsables de l'extraction d'informations contextuelles pertinentes. Nous émettons l'hypothèse que le masquage de ces têtes de récupération peut induire des hallucinations et que la comparaison des sorties du LLM de base et du LLM masqué peut réduire les hallucinations. À cette fin, nous proposons Décodage par Contraste des Têtes de Récupération (DeCoRe), une nouvelle stratégie de décodage sans entraînement qui amplifie les informations trouvées dans le contexte et les paramètres du modèle. DeCoRe atténue les réponses potentiellement hallucinées en contrastant dynamiquement les sorties du LLM de base et du LLM masqué, en utilisant l'entropie conditionnelle comme guide. Nos expériences approfondies confirment que DeCoRe améliore significativement les performances sur des tâches nécessitant une fidélité contextuelle élevée, telles que la résumé (XSum de 18,6 %), le suivi des instructions (MemoTrap de 10,9 %) et la réponse à des questions ouvertes (NQ-Open de 2,4 % et NQ-Swap de 5,5 %).

English

Large Language Models (LLMs) often hallucinate, producing unfaithful or factually incorrect outputs by misrepresenting the provided context or incorrectly recalling internal knowledge. Recent studies have identified specific attention heads within the Transformer architecture, known as retrieval heads, responsible for extracting relevant contextual information. We hypothesise that masking these retrieval heads can induce hallucinations and that contrasting the outputs of the base LLM and the masked LLM can reduce hallucinations. To this end, we propose Decoding by Contrasting Retrieval Heads (DeCoRe), a novel training-free decoding strategy that amplifies information found in the context and model parameters. DeCoRe mitigates potentially hallucinated responses by dynamically contrasting the outputs of the base LLM and the masked LLM, using conditional entropy as a guide. Our extensive experiments confirm that DeCoRe significantly improves performance on tasks requiring high contextual faithfulness, such as summarisation (XSum by 18.6%), instruction following (MemoTrap by 10.9%), and open-book question answering (NQ-Open by 2.4% and NQ-Swap by 5.5%).

DeCoRe : Décodage par Contraste des Têtes de Récupération pour Atténuer les Hallucinations

DeCoRe: Decoding by Contrasting Retrieval Heads to Mitigate Hallucinations

Résumé

Support