Est-ce que l'édition de connaissances peut réellement corriger les hallucinations ?
Can Knowledge Editing Really Correct Hallucinations?
October 21, 2024
Auteurs: Baixiang Huang, Canyu Chen, Xiongxiao Xu, Ali Payani, Kai Shu
cs.AI
Résumé
Les grands modèles de langage (LLM) souffrent d'hallucinations, faisant référence aux informations non factuelles dans le contenu généré, malgré leurs capacités supérieures dans diverses tâches. Pendant ce temps, l'édition de connaissances a été développée comme un nouveau paradigme populaire pour corriger les connaissances factuelles erronées encodées dans les LLM, avec l'avantage d'éviter une réinitialisation complète. Cependant, un problème courant des ensembles de données d'évaluation existants pour l'édition de connaissances est qu'ils ne garantissent pas que les LLM génèrent effectivement des réponses hallucinées aux questions d'évaluation avant l'édition. Lorsque les LLM sont évalués sur de tels ensembles de données après avoir été édités par différentes techniques, il est difficile d'adopter directement les performances pour évaluer l'efficacité des différentes méthodes d'édition de connaissances dans la correction des hallucinations. Ainsi, la question fondamentale reste insuffisamment validée : l'édition de connaissances peut-elle vraiment corriger les hallucinations dans les LLM ? Nous avons proposé HalluEditBench pour évaluer de manière holistique les méthodes d'édition de connaissances dans la correction des hallucinations du monde réel. Tout d'abord, nous construisons rigoureusement un vaste ensemble de données d'hallucinations avec 9 domaines, 26 sujets et plus de 6 000 hallucinations. Ensuite, nous évaluons les performances des méthodes d'édition de connaissances de manière holistique sur cinq dimensions, notamment l'efficacité, la généralisation, la portabilité, la localité et la robustesse. Grâce à HalluEditBench, nous avons fourni de nouvelles perspectives sur les potentiels et les limites des différentes méthodes d'édition de connaissances dans la correction des hallucinations, ce qui pourrait inspirer des améliorations futures et faciliter les progrès dans le domaine de l'édition de connaissances.
English
Large Language Models (LLMs) suffer from hallucinations, referring to the
non-factual information in generated content, despite their superior capacities
across tasks. Meanwhile, knowledge editing has been developed as a new popular
paradigm to correct the erroneous factual knowledge encoded in LLMs with the
advantage of avoiding retraining from scratch. However, one common issue of
existing evaluation datasets for knowledge editing is that they do not ensure
LLMs actually generate hallucinated answers to the evaluation questions before
editing. When LLMs are evaluated on such datasets after being edited by
different techniques, it is hard to directly adopt the performance to assess
the effectiveness of different knowledge editing methods in correcting
hallucinations. Thus, the fundamental question remains insufficiently
validated: Can knowledge editing really correct hallucinations in LLMs? We
proposed HalluEditBench to holistically benchmark knowledge editing methods in
correcting real-world hallucinations. First, we rigorously construct a massive
hallucination dataset with 9 domains, 26 topics and more than 6,000
hallucinations. Then, we assess the performance of knowledge editing methods in
a holistic way on five dimensions including Efficacy, Generalization,
Portability, Locality, and Robustness. Through HalluEditBench, we have provided
new insights into the potentials and limitations of different knowledge editing
methods in correcting hallucinations, which could inspire future improvements
and facilitate the progress in the field of knowledge editing.Summary
AI-Generated Summary