DeCoRe: 환각 완화를 위해 검색 헤드를 대조하여 디코딩
DeCoRe: Decoding by Contrasting Retrieval Heads to Mitigate Hallucinations
October 24, 2024
저자: Aryo Pradipta Gema, Chen Jin, Ahmed Abdulaal, Tom Diethe, Philip Teare, Beatrice Alex, Pasquale Minervini, Amrutha Saseendran
cs.AI
초록
대형 언어 모델 (LLM)은 종종 환각을 일으키며, 제공된 맥락을 잘못 표현하거나 내부 지식을 잘못 기억하여 충실하지 않거나 사실적으로 부정확한 결과물을 생성합니다. 최근 연구에서는 Transformer 아키텍처 내에서 특정 어텐션 헤드를 식별했는데, 이를 검색 헤드라고 하며 관련 맥락 정보를 추출하는 역할을 합니다. 우리는 이러한 검색 헤드를 마스킹함으로써 환각을 유발할 수 있고, 기본 LLM과 마스킹된 LLM의 출력을 대조함으로써 환각을 줄일 수 있다고 가설을 세웁니다. 이를 위해 우리는 Decoding by Contrasting Retrieval Heads(DeCoRe)를 제안합니다. 이는 새로운 훈련 없는 디코딩 전략으로, 맥락과 모델 매개변수에서 발견된 정보를 강화합니다. DeCoRe는 조건 엔트로피를 안내로 사용하여 기본 LLM과 마스킹된 LLM의 출력을 동적으로 대조함으로써 잠재적으로 환각을 일으키는 응답을 완화합니다. 우리의 방대한 실험은 DeCoRe가 요약 (XSum에서 18.6%), 지시 따르기 (MemoTrap에서 10.9%), 그리고 오픈북 질문 응답 (NQ-Open에서 2.4% 및 NQ-Swap에서 5.5%)과 같이 고도의 맥락적 충실성이 필요한 작업에서 성능을 크게 향상시킨다는 것을 확인합니다.
English
Large Language Models (LLMs) often hallucinate, producing unfaithful or
factually incorrect outputs by misrepresenting the provided context or
incorrectly recalling internal knowledge. Recent studies have identified
specific attention heads within the Transformer architecture, known as
retrieval heads, responsible for extracting relevant contextual information. We
hypothesise that masking these retrieval heads can induce hallucinations and
that contrasting the outputs of the base LLM and the masked LLM can reduce
hallucinations. To this end, we propose Decoding by Contrasting Retrieval Heads
(DeCoRe), a novel training-free decoding strategy that amplifies information
found in the context and model parameters. DeCoRe mitigates potentially
hallucinated responses by dynamically contrasting the outputs of the base LLM
and the masked LLM, using conditional entropy as a guide. Our extensive
experiments confirm that DeCoRe significantly improves performance on tasks
requiring high contextual faithfulness, such as summarisation (XSum by 18.6%),
instruction following (MemoTrap by 10.9%), and open-book question answering
(NQ-Open by 2.4% and NQ-Swap by 5.5%).Summary
AI-Generated Summary