Kann Wissensbearbeitung Halluzinationen tatsächlich korrigieren?
Can Knowledge Editing Really Correct Hallucinations?
October 21, 2024
Autoren: Baixiang Huang, Canyu Chen, Xiongxiao Xu, Ali Payani, Kai Shu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) leiden unter Halluzinationen, die sich auf nicht-faktische Informationen im generierten Inhalt beziehen, trotz ihrer überlegenen Leistungsfähigkeit über verschiedene Aufgaben hinweg. In der Zwischenzeit wurde die Wissensbearbeitung als ein neues populäres Paradigma entwickelt, um fehlerhaftes faktisches Wissen, das in LLMs codiert ist, zu korrigieren, mit dem Vorteil, ein Neutraining von Grund auf zu vermeiden. Ein häufiges Problem bestehender Evaluierungsdatensätze für die Wissensbearbeitung ist jedoch, dass sie nicht sicherstellen, dass LLMs tatsächlich halluzinierte Antworten auf die Evaluierungsfragen generieren, bevor sie bearbeitet werden. Wenn LLMs auf solchen Datensätzen bewertet werden, nachdem sie von verschiedenen Techniken bearbeitet wurden, ist es schwierig, die Leistung direkt zu übernehmen, um die Wirksamkeit verschiedener Wissensbearbeitungsmethoden bei der Korrektur von Halluzinationen zu bewerten. Somit bleibt die grundlegende Frage unzureichend validiert: Kann die Wissensbearbeitung wirklich Halluzinationen in LLMs korrigieren? Wir haben HalluEditBench vorgeschlagen, um Wissensbearbeitungsmethoden zur Korrektur realer Halluzinationen ganzheitlich zu bewerten. Zunächst konstruieren wir rigoros einen umfangreichen Halluzinationsdatensatz mit 9 Domänen, 26 Themen und über 6.000 Halluzinationen. Dann bewerten wir die Leistung von Wissensbearbeitungsmethoden auf ganzheitliche Weise anhand von fünf Dimensionen, einschließlich Wirksamkeit, Generalisierung, Portabilität, Lokalität und Robustheit. Durch HalluEditBench haben wir neue Einblicke in das Potenzial und die Grenzen verschiedener Wissensbearbeitungsmethoden zur Korrektur von Halluzinationen geliefert, die zukünftige Verbesserungen inspirieren und den Fortschritt auf dem Gebiet der Wissensbearbeitung erleichtern könnten.
English
Large Language Models (LLMs) suffer from hallucinations, referring to the
non-factual information in generated content, despite their superior capacities
across tasks. Meanwhile, knowledge editing has been developed as a new popular
paradigm to correct the erroneous factual knowledge encoded in LLMs with the
advantage of avoiding retraining from scratch. However, one common issue of
existing evaluation datasets for knowledge editing is that they do not ensure
LLMs actually generate hallucinated answers to the evaluation questions before
editing. When LLMs are evaluated on such datasets after being edited by
different techniques, it is hard to directly adopt the performance to assess
the effectiveness of different knowledge editing methods in correcting
hallucinations. Thus, the fundamental question remains insufficiently
validated: Can knowledge editing really correct hallucinations in LLMs? We
proposed HalluEditBench to holistically benchmark knowledge editing methods in
correcting real-world hallucinations. First, we rigorously construct a massive
hallucination dataset with 9 domains, 26 topics and more than 6,000
hallucinations. Then, we assess the performance of knowledge editing methods in
a holistic way on five dimensions including Efficacy, Generalization,
Portability, Locality, and Robustness. Through HalluEditBench, we have provided
new insights into the potentials and limitations of different knowledge editing
methods in correcting hallucinations, which could inspire future improvements
and facilitate the progress in the field of knowledge editing.Summary
AI-Generated Summary