HALoGEN: 환상적인 LLM 환각과 그 발견 위치
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them
January 14, 2025
저자: Abhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi
cs.AI
초록
고품질이며 유창한 텍스트를 생성하는 능력이 뛰어난 생성형 대형 언어 모델(Large Language Models, LLMs)은 환각을 생성하기도 합니다: 확립된 세계 지식이나 입력된 맥락과 일치하지 않는 문장들을 생성합니다. 그러나 환각을 측정하는 것은 어려울 수 있습니다. 왜냐하면 모델 생성물을 인간이 실시간으로 확인하는 것은 비용이 많이 들고 시간이 많이 소요되기 때문입니다. 본 연구에서는 프로그래밍, 과학적 속성, 요약 등 아홉 가지 도메인에 걸쳐 생성 모델을 위한 10,923개의 프롬프트와 각 사용 사례에 대한 자동 고정밀 확인 도구로 구성된 포괄적인 환각 벤치마크인 HALoGEN을 공개합니다. 이 도구는 LLM 생성물을 원자 단위로 분해하고 각 단위를 고품질 지식 원본과 비교하여 확인합니다. 우리는 이 프레임워크를 사용하여 14개의 언어 모델로부터 약 150,000개의 생성물을 평가하고, 최고 수준의 모델조차도 환각으로 가득 차 있음을 발견했습니다(도메인에 따라 생성된 원자적 사실의 최대 86%까지). 또한, LLM 환각에 대한 새로운 오류 분류를 정의했습니다. 이는 훈련 데이터의 잘못된 기억(Type A 오류), 훈련 데이터의 잘못된 지식(Type B 오류), 또는 가공(Type C 오류)에서 유래한 것인지를 기반으로 합니다. 우리는 이 프레임워크가 생성 모델이 왜 환각을 일으키는지를 체계적으로 연구하고 신뢰할 수 있는 대형 언어 모델의 개발을 진전시키는 기초를 제공할 것으로 기대합니다.
English
Despite their impressive ability to generate high-quality and fluent text,
generative large language models (LLMs) also produce hallucinations: statements
that are misaligned with established world knowledge or provided input context.
However, measuring hallucination can be challenging, as having humans verify
model generations on-the-fly is both expensive and time-consuming. In this
work, we release HALoGEN, a comprehensive hallucination benchmark consisting
of: (1) 10,923 prompts for generative models spanning nine domains including
programming, scientific attribution, and summarization, and (2) automatic
high-precision verifiers for each use case that decompose LLM generations into
atomic units, and verify each unit against a high-quality knowledge source. We
use this framework to evaluate ~150,000 generations from 14 language models,
finding that even the best-performing models are riddled with hallucinations
(sometimes up to 86% of generated atomic facts depending on the domain). We
further define a novel error classification for LLM hallucinations based on
whether they likely stem from incorrect recollection of training data (Type A
errors), or incorrect knowledge in training data (Type B errors), or are
fabrication (Type C errors). We hope our framework provides a foundation to
enable the principled study of why generative models hallucinate, and advances
the development of trustworthy large language models.Summary
AI-Generated Summary