RetroLLM: 대규모 언어 모델에게 세부 증거를 검색할 수 있는 능력 부여
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation
December 16, 2024
저자: Xiaoxi Li, Jiajie Jin, Yujia Zhou, Yongkang Wu, Zhonghua Li, Qi Ye, Zhicheng Dou
cs.AI
초록
대형 언어 모델 (LLM)은 놀라운 생성 능력을 보여주지만 종종 환각에 시달립니다. 검색 증강 생성 (RAG)은 외부 지식을 통합함으로써 효과적인 해결책을 제공하지만, 기존 방법은 여전히 몇 가지 제한에 직면합니다: 별도의 검색기의 추가 배포 비용, 검색된 텍스트 청크로부터 중복 입력 토큰, 그리고 검색 및 생성의 공동 최적화의 부재. 이러한 문제를 해결하기 위해 우리는 RetroLLM을 제안합니다. RetroLLM은 검색과 생성을 단일하고 일관된 프로세스로 통합하여 LLM이 제한된 디코딩으로 말뭉치에서 세부적인 증거를 직접 생성할 수 있게 합니다. 또한, 제한된 증거 생성 과정에서 잘못된 가지치기를 완화하기 위해 (1) 계층적 FM-인덱스 제약 조건을 소개합니다. 이 조건은 증거 생성 전에 관련 문서의 하위 집합을 식별하기 위해 말뭉치 제약 단서를 생성하여 관련 없는 디코딩 공간을 줄입니다. 그리고 (2) 미래 시퀀스의 관련성을 고려하여 증거 정확도를 향상시키는 전방향 제한 디코딩 전략을 도입합니다. 다섯 개의 오픈 도메인 QA 데이터셋에 대한 광범위한 실험 결과는 RetroLLM의 도메인 내 및 도메인 외 작업에서 우수한 성능을 보여줍니다. 코드는 https://github.com/sunnynexus/RetroLLM에서 사용할 수 있습니다.
English
Large language models (LLMs) exhibit remarkable generative capabilities but
often suffer from hallucinations. Retrieval-augmented generation (RAG) offers
an effective solution by incorporating external knowledge, but existing methods
still face several limitations: additional deployment costs of separate
retrievers, redundant input tokens from retrieved text chunks, and the lack of
joint optimization of retrieval and generation. To address these issues, we
propose RetroLLM, a unified framework that integrates retrieval and
generation into a single, cohesive process, enabling LLMs to directly generate
fine-grained evidence from the corpus with constrained decoding. Moreover, to
mitigate false pruning in the process of constrained evidence generation, we
introduce (1) hierarchical FM-Index constraints, which generate
corpus-constrained clues to identify a subset of relevant documents before
evidence generation, reducing irrelevant decoding space; and (2) a
forward-looking constrained decoding strategy, which considers the relevance of
future sequences to improve evidence accuracy. Extensive experiments on five
open-domain QA datasets demonstrate RetroLLM's superior performance across both
in-domain and out-of-domain tasks. The code is available at
https://github.com/sunnynexus/RetroLLM.