진실 또는 신화? LLM-OASIS를 활용한 종단간 사실성 평가 방향
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-OASIS
November 29, 2024
저자: Alessandro Scirè, Andrei Stefan Bejgu, Simone Tedeschi, Karim Ghonim, Federico Martelli, Roberto Navigli
cs.AI
초록
대형 언어 모델 (LLM)이 도입된 이후에는 자연어 생성 (NLG) 작업의 성능이 크게 향상되었습니다. 이에는 텍스트 요약 및 기계 번역이 포함됩니다. 그러나 LLM은 여전히 사실 정보에 근거하지 않는 내용, 즉 환각을 포함한 결과물을 생성합니다. 따라서 LLM의 사실성을 평가하는 방법을 개발하는 것이 절박해졌습니다.
실제로 최근에는 사실성 평가를 위한 자원이 등장했습니다. 그러나 이러한 자원은 한 가지 이상의 제한을 가지고 있습니다. (i) 특정 작업이나 도메인에 맞춰져 있거나, (ii) 크기가 제한되어 새로운 사실성 평가자를 훈련시키는 것을 방해하거나, (iii) 주장 검증과 같은 더 간단한 확인 작업을 위해 설계되었습니다.
이러한 문제를 해결하기 위해 우리는 최고의 지식을 바탕으로 최대 규모의 종단간 사실성 평가자를 훈련하기 위한 자원인 LLM-Oasis를 소개합니다. LLM-Oasis는 위키피디아에서 주장을 추출하고, 이러한 주장 중 일부를 위조하며, 사실적인 텍스트와 비사실적인 텍스트의 쌍을 생성하여 구축되었습니다. 그런 다음 인간 주석자들을 의지하여 데이터셋의 품질을 검증하고 사실성 평가 시스템의 벤치마킹을 위한 골드 표준 테스트 세트를 작성합니다.
우리의 실험 결과는 LLM-Oasis가 최첨단 LLM에 대한 중요한 도전 과제를 제시하며, 제안된 종단간 사실성 평가 작업에서 GPT-4o가 최대 60%의 정확도를 달성하는 것을 보여주며, 이는 이 분야에서의 미래 연구를 촉진할 잠재력을 강조합니다.
English
After the introduction of Large Language Models (LLMs), there have been
substantial improvements in the performance of Natural Language Generation
(NLG) tasks, including Text Summarization and Machine Translation. However,
LLMs still produce outputs containing hallucinations, that is, content not
grounded in factual information. Therefore, developing methods to assess the
factuality of LLMs has become urgent.
Indeed, resources for factuality evaluation have recently emerged. Although
challenging, these resources face one or more of the following limitations: (i)
they are tailored to a specific task or domain; (ii) they are limited in size,
thereby preventing the training of new factuality evaluators; (iii) they are
designed for simpler verification tasks, such as claim verification.
To address these issues, we introduce LLM-Oasis, to the best of our knowledge
the largest resource for training end-to-end factuality evaluators. LLM-Oasis
is constructed by extracting claims from Wikipedia, falsifying a subset of
these claims, and generating pairs of factual and unfactual texts. We then rely
on human annotators to both validate the quality of our dataset and to create a
gold standard test set for benchmarking factuality evaluation systems.
Our experiments demonstrate that LLM-Oasis presents a significant challenge
for state-of-the-art LLMs, with GPT-4o achieving up to 60% accuracy in our
proposed end-to-end factuality evaluation task, highlighting its potential to
drive future research in the field.Summary
AI-Generated Summary