LLM은 다양한 언어에서 얼마나 환각을 일으키는가? 실제 환경에서의 다국어 LLM 환각 현상 추정
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild
February 18, 2025
저자: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
cs.AI
초록
오늘날 잘못된 정보가 범람하는 시대에서, 대형 언어 모델(LLM)이 비사실적이거나 부정확한 응답을 생성하는 경향인 '환각(hallucination)'은 이들의 전반적인 유용성에 있어 주요 위험 요소로 대두되고 있습니다. LLM이 점점 더 다국어화되고 있음에도 불구하고, LLM 환각을 탐지하고 측정하는 연구의 대부분은 (a) 영어 중심적이며, (b) 기계 번역(MT)과 요약 작업에 초점을 맞추고 있습니다. 이는 실제 환경에서보다는 개방형 정보 탐색 작업에서 덜 일반적으로 사용되는 과제들입니다. 이와 대조적으로, 우리는 지식 집약적인 장문 질의응답에서 다양한 언어에 걸친 LLM 환각의 정도를 정량화하는 것을 목표로 합니다. 이를 위해, 우리는 다국어 환각 탐지 모델을 학습시키고, 30개 언어와 6개의 오픈소스 LLM 패밀리에 걸친 대규모 연구를 수행합니다. 우리는 영어 환각 탐지 데이터셋을 출발점으로 삼고, 기계 번역을 활용하여 다른 언어로 된 (노이즈가 포함된) 학습 데이터를 생성합니다. 또한, 우리는 5개의 고자원 언어에 대해 수동으로 골드 데이터를 주석 처리합니다; 그런 다음, 이러한 언어들에 대해, 은색(LLM 생성) 테스트 세트와 골드 테스트 세트 간의 환각 비율 추정치가 유사함을 보여줌으로써, 다른 언어의 환각 비율을 추정하는 데 은색 데이터를 사용하는 것이 타당함을 입증합니다. 최종 비율 추정을 위해, 우리는 LLM 생성 프롬프트와 위키피디아 문서를 참조 자료로 사용하여 30개 언어에 대한 지식 집약적인 질의응답 데이터셋을 구축합니다. 우리는, LLM이 고자원 언어에 대해 더 긴 응답과 더 많은 환각 토큰을 생성하는 반면, 길이 정규화된 환각 비율과 언어의 디지털 표현 간에는 상관관계가 없음을 발견했습니다. 더 나아가, 우리는 더 작은 LLM이 더 큰 모델보다 더 높은 환각 비율을 보인다는 사실을 발견했습니다.
English
In the age of misinformation, hallucination -- the tendency of Large Language
Models (LLMs) to generate non-factual or unfaithful responses -- represents the
main risk for their global utility. Despite LLMs becoming increasingly
multilingual, the vast majority of research on detecting and quantifying LLM
hallucination are (a) English-centric and (b) focus on machine translation (MT)
and summarization, tasks that are less common ``in the wild'' than open
information seeking. In contrast, we aim to quantify the extent of LLM
hallucination across languages in knowledge-intensive long-form question
answering. To this end, we train a multilingual hallucination detection model
and conduct a large-scale study across 30 languages and 6 open-source LLM
families. We start from an English hallucination detection dataset and rely on
MT to generate (noisy) training data in other languages. We also manually
annotate gold data for five high-resource languages; we then demonstrate, for
these languages, that the estimates of hallucination rates are similar between
silver (LLM-generated) and gold test sets, validating the use of silver data
for estimating hallucination rates for other languages. For the final rates
estimation, we build a knowledge-intensive QA dataset for 30 languages with
LLM-generated prompts and Wikipedia articles as references. We find that, while
LLMs generate longer responses with more hallucinated tokens for
higher-resource languages, there is no correlation between length-normalized
hallucination rates of languages and their digital representation. Further, we
find that smaller LLMs exhibit larger hallucination rates than larger models.Summary
AI-Generated Summary