Kann Wissensbearbeitung Halluzinationen tatsächlich korrigieren?

Can Knowledge Editing Really Correct Hallucinations?

October 21, 2024
Autoren: Baixiang Huang, Canyu Chen, Xiongxiao Xu, Ali Payani, Kai Shu
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) leiden unter Halluzinationen, die sich auf nicht-faktische Informationen im generierten Inhalt beziehen, trotz ihrer überlegenen Leistungsfähigkeit über verschiedene Aufgaben hinweg. In der Zwischenzeit wurde die Wissensbearbeitung als ein neues populäres Paradigma entwickelt, um fehlerhaftes faktisches Wissen, das in LLMs codiert ist, zu korrigieren, mit dem Vorteil, ein Neutraining von Grund auf zu vermeiden. Ein häufiges Problem bestehender Evaluierungsdatensätze für die Wissensbearbeitung ist jedoch, dass sie nicht sicherstellen, dass LLMs tatsächlich halluzinierte Antworten auf die Evaluierungsfragen generieren, bevor sie bearbeitet werden. Wenn LLMs auf solchen Datensätzen bewertet werden, nachdem sie von verschiedenen Techniken bearbeitet wurden, ist es schwierig, die Leistung direkt zu übernehmen, um die Wirksamkeit verschiedener Wissensbearbeitungsmethoden bei der Korrektur von Halluzinationen zu bewerten. Somit bleibt die grundlegende Frage unzureichend validiert: Kann die Wissensbearbeitung wirklich Halluzinationen in LLMs korrigieren? Wir haben HalluEditBench vorgeschlagen, um Wissensbearbeitungsmethoden zur Korrektur realer Halluzinationen ganzheitlich zu bewerten. Zunächst konstruieren wir rigoros einen umfangreichen Halluzinationsdatensatz mit 9 Domänen, 26 Themen und über 6.000 Halluzinationen. Dann bewerten wir die Leistung von Wissensbearbeitungsmethoden auf ganzheitliche Weise anhand von fünf Dimensionen, einschließlich Wirksamkeit, Generalisierung, Portabilität, Lokalität und Robustheit. Durch HalluEditBench haben wir neue Einblicke in das Potenzial und die Grenzen verschiedener Wissensbearbeitungsmethoden zur Korrektur von Halluzinationen geliefert, die zukünftige Verbesserungen inspirieren und den Fortschritt auf dem Gebiet der Wissensbearbeitung erleichtern könnten.
English
Large Language Models (LLMs) suffer from hallucinations, referring to the non-factual information in generated content, despite their superior capacities across tasks. Meanwhile, knowledge editing has been developed as a new popular paradigm to correct the erroneous factual knowledge encoded in LLMs with the advantage of avoiding retraining from scratch. However, one common issue of existing evaluation datasets for knowledge editing is that they do not ensure LLMs actually generate hallucinated answers to the evaluation questions before editing. When LLMs are evaluated on such datasets after being edited by different techniques, it is hard to directly adopt the performance to assess the effectiveness of different knowledge editing methods in correcting hallucinations. Thus, the fundamental question remains insufficiently validated: Can knowledge editing really correct hallucinations in LLMs? We proposed HalluEditBench to holistically benchmark knowledge editing methods in correcting real-world hallucinations. First, we rigorously construct a massive hallucination dataset with 9 domains, 26 topics and more than 6,000 hallucinations. Then, we assess the performance of knowledge editing methods in a holistic way on five dimensions including Efficacy, Generalization, Portability, Locality, and Robustness. Through HalluEditBench, we have provided new insights into the potentials and limitations of different knowledge editing methods in correcting hallucinations, which could inspire future improvements and facilitate the progress in the field of knowledge editing.

Summary

AI-Generated Summary

PDF542November 16, 2024