La Modifica della Conoscenza può Davvero Correggere le Allucinazioni?
Can Knowledge Editing Really Correct Hallucinations?
October 21, 2024
Autori: Baixiang Huang, Canyu Chen, Xiongxiao Xu, Ali Payani, Kai Shu
cs.AI
Abstract
I Large Language Models (LLM) soffrono di allucinazioni, facendo riferimento alle informazioni non fattuali presenti nei contenuti generati, nonostante le loro capacità superiori in varie attività. Nel frattempo, l'editing della conoscenza è stato sviluppato come un nuovo paradigma popolare per correggere le conoscenze factual errate codificate nei LLM, con il vantaggio di evitare il riaddestramento da zero. Tuttavia, un problema comune dei dataset di valutazione esistenti per l'editing della conoscenza è che non garantiscono che i LLM generino effettivamente risposte allucinate alle domande di valutazione prima dell'editing. Quando i LLM sono valutati su tali dataset dopo essere stati modificati con diverse tecniche, è difficile adottare direttamente le prestazioni per valutare l'efficacia dei diversi metodi di editing della conoscenza nel correggere le allucinazioni. Pertanto, la domanda fondamentale rimane insufficientemente convalidata: l'editing della conoscenza può davvero correggere le allucinazioni nei LLM? Abbiamo proposto HalluEditBench per valutare in modo completo i metodi di editing della conoscenza nel correggere le allucinazioni del mondo reale. Prima, costruiamo rigorosamente un massiccio dataset di allucinazioni con 9 domini, 26 argomenti e più di 6.000 allucinazioni. Successivamente, valutiamo le prestazioni dei metodi di editing della conoscenza in modo olistico su cinque dimensioni, tra cui Efficacia, Generalizzazione, Portabilità, Località e Robustezza. Attraverso HalluEditBench, abbiamo fornito nuove prospettive sui potenziali e limiti dei diversi metodi di editing della conoscenza nel correggere le allucinazioni, che potrebbero ispirare futuri miglioramenti e facilitare i progressi nel campo dell'editing della conoscenza.
English
Large Language Models (LLMs) suffer from hallucinations, referring to the
non-factual information in generated content, despite their superior capacities
across tasks. Meanwhile, knowledge editing has been developed as a new popular
paradigm to correct the erroneous factual knowledge encoded in LLMs with the
advantage of avoiding retraining from scratch. However, one common issue of
existing evaluation datasets for knowledge editing is that they do not ensure
LLMs actually generate hallucinated answers to the evaluation questions before
editing. When LLMs are evaluated on such datasets after being edited by
different techniques, it is hard to directly adopt the performance to assess
the effectiveness of different knowledge editing methods in correcting
hallucinations. Thus, the fundamental question remains insufficiently
validated: Can knowledge editing really correct hallucinations in LLMs? We
proposed HalluEditBench to holistically benchmark knowledge editing methods in
correcting real-world hallucinations. First, we rigorously construct a massive
hallucination dataset with 9 domains, 26 topics and more than 6,000
hallucinations. Then, we assess the performance of knowledge editing methods in
a holistic way on five dimensions including Efficacy, Generalization,
Portability, Locality, and Robustness. Through HalluEditBench, we have provided
new insights into the potentials and limitations of different knowledge editing
methods in correcting hallucinations, which could inspire future improvements
and facilitate the progress in the field of knowledge editing.Summary
AI-Generated Summary