의료 질문 응답을 위한 검색 증강 생성 시스템의 포괄적이고 실용적인 평가
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering
November 14, 2024
저자: Nghia Trung Ngo, Chien Van Nguyen, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
초록
검색 증강 생성 (RAG)은 대규모 언어 모델 (LLM)의 성능을 향상시키는 유망한 접근 방식으로 등장했습니다. 특히 의료 분야와 같은 지식 집약적 작업에서 그 성능을 향상시키는 데 중요한 역할을 합니다. 그러나 의료 분야의 민감한 성격으로 인해 완전히 정확하고 신뢰할 수 있는 시스템이 필요합니다. 기존의 RAG 벤치마크는 주로 표준 검색-답변 설정에 초점을 맞추지만, 신뢰할 수 있는 의료 시스템의 중요한 측면을 측정하는 많은 실제 시나리오를 간과합니다. 본 논문은 이러한 공백을 채우기 위해 의료 질문-응답 (QA) 시스템을 위한 RAG 설정에서 sufficiency, integration, robustness를 포함한 이러한 상황에 대한 포괄적인 평가 프레임워크를 제공합니다. 우리는 Medical Retrieval-Augmented Generation Benchmark (MedRGB)를 소개하여 LLM의 이러한 특정 시나리오를 처리하는 능력을 테스트하기 위해 네 가지 의료 QA 데이터셋에 다양한 보조 요소를 제공합니다. MedRGB를 활용하여 상용 LLM과 오픈 소스 모델을 여러 검색 조건에서 평가합니다. 실험 결과는 현재 모델이 검색된 문서의 소음과 잘못된 정보를 처리하는 능력이 제한적임을 보여줍니다. 또한 LLM의 추론 과정을 분석하여 이 중요한 의료 분야에서 RAG 시스템을 개발하는 데 유용한 통찰과 미래 방향을 제시합니다.
English
Retrieval-augmented generation (RAG) has emerged as a promising approach to
enhance the performance of large language models (LLMs) in knowledge-intensive
tasks such as those from medical domain. However, the sensitive nature of the
medical domain necessitates a completely accurate and trustworthy system. While
existing RAG benchmarks primarily focus on the standard retrieve-answer
setting, they overlook many practical scenarios that measure crucial aspects of
a reliable medical system. This paper addresses this gap by providing a
comprehensive evaluation framework for medical question-answering (QA) systems
in a RAG setting for these situations, including sufficiency, integration, and
robustness. We introduce Medical Retrieval-Augmented Generation Benchmark
(MedRGB) that provides various supplementary elements to four medical QA
datasets for testing LLMs' ability to handle these specific scenarios.
Utilizing MedRGB, we conduct extensive evaluations of both state-of-the-art
commercial LLMs and open-source models across multiple retrieval conditions.
Our experimental results reveals current models' limited ability to handle
noise and misinformation in the retrieved documents. We further analyze the
LLMs' reasoning processes to provides valuable insights and future directions
for developing RAG systems in this critical medical domain.Summary
AI-Generated Summary