지식 편집이 환각을 실제로 교정할 수 있을까요?

Can Knowledge Editing Really Correct Hallucinations?

October 21, 2024
저자: Baixiang Huang, Canyu Chen, Xiongxiao Xu, Ali Payani, Kai Shu
cs.AI

초록

대형 언어 모델 (LLM)은 작업 전반에 걸쳐 우수한 성능을 보이지만 생성된 콘텐츠에 비사실적인 정보가 포함된 환각 현상으로 인해 고통을 겪습니다. 한편, 지식 편집은 LLM에 인코딩된 잘못된 사실적 지식을 수정하기 위한 새로운 인기 있는 패러다임으로 발전해 왔으며, 처음부터 재교육을 피할 수 있는 장점이 있습니다. 그러나, 지식 편집을 위한 기존 평가 데이터셋의 일반적인 문제점은 편집 전 LLM이 실제로 평가 질문에 환각적인 답변을 생성하는지를 보장하지 않는다는 것입니다. LLM이 다양한 기술로 편집된 후 이러한 데이터셋에서 평가를 받을 때, 서로 다른 지식 편집 방법의 효과를 평가하기 위해 성능을 직접 채택하는 것이 어렵습니다. 따라서, 기본적인 질문이 충분히 검증되지 않은 상태로 남아 있는데, 지식 편집이 실제로 LLM의 환각을 수정할 수 있는지에 대한 질문입니다. 우리는 HalluEditBench를 제안하여 현실 세계의 환각을 수정하는 지식 편집 방법을 종합적으로 평가합니다. 먼저, 9개 도메인, 26개 주제 및 6,000개 이상의 환각을 포함한 대규모 환각 데이터셋을 엄격하게 구축합니다. 그런 다음, 효과성, 일반화, 이식성, 지역성 및 견고성을 포함한 다섯 가지 차원에서 지식 편집 방법의 성능을 종합적으로 평가합니다. HalluEditBench를 통해 다양한 지식 편집 방법의 환각 수정 능력에 대한 잠재력과 한계에 대한 새로운 통찰을 제공하여 미래 개선을 영감 주고 지식 편집 분야의 진전을 촉진할 수 있습니다.
English
Large Language Models (LLMs) suffer from hallucinations, referring to the non-factual information in generated content, despite their superior capacities across tasks. Meanwhile, knowledge editing has been developed as a new popular paradigm to correct the erroneous factual knowledge encoded in LLMs with the advantage of avoiding retraining from scratch. However, one common issue of existing evaluation datasets for knowledge editing is that they do not ensure LLMs actually generate hallucinated answers to the evaluation questions before editing. When LLMs are evaluated on such datasets after being edited by different techniques, it is hard to directly adopt the performance to assess the effectiveness of different knowledge editing methods in correcting hallucinations. Thus, the fundamental question remains insufficiently validated: Can knowledge editing really correct hallucinations in LLMs? We proposed HalluEditBench to holistically benchmark knowledge editing methods in correcting real-world hallucinations. First, we rigorously construct a massive hallucination dataset with 9 domains, 26 topics and more than 6,000 hallucinations. Then, we assess the performance of knowledge editing methods in a holistic way on five dimensions including Efficacy, Generalization, Portability, Locality, and Robustness. Through HalluEditBench, we have provided new insights into the potentials and limitations of different knowledge editing methods in correcting hallucinations, which could inspire future improvements and facilitate the progress in the field of knowledge editing.

Summary

AI-Generated Summary

PDF542November 16, 2024