검색된 맥락을 통해 의료 LLMs 강화하기
Boosting Healthcare LLMs Through Retrieved Context
September 23, 2024
저자: Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Dario Garcia-Gasulla
cs.AI
초록
대형 언어 모델(Large Language Models, LLMs)은 자연어 처리에서 놀라운 능력을 보여주었지만, 그들의 사실적인 부정확성과 환각은 특히 의료와 같은 중요한 영역에서의 응용을 제한하고 있다. 문맥 검색 방법은 관련 정보를 입력으로 도입함으로써 LLM의 사실성과 신뢰성을 향상시키는 중요한 접근법으로 부상했다. 본 연구는 의료 분야 내에서 문맥 검색 방법의 한계를 탐구하며, 그 구성 요소를 최적화하고 성능을 오픈 및 폐쇄 대안과의 비교를 통해 측정하였다. 우리의 연구 결과는 최적화된 검색 시스템으로 보강된 오픈 LLM이 확립된 의료 벤치마크(다지선다식 질문 응답)에서 가장 큰 사설 솔루션과 비슷한 성능을 달성할 수 있다는 것을 보여준다. 질문 내에 가능한 답변을 포함하는 현실성의 부족을 인식하고(이는 의학 시험에서만 발견되는 설정이다), 그러한 옵션 없이 강력한 LLM 성능 저하를 평가한 후, 우리는 그 방향으로 문맥 검색 시스템을 확장한다. 특히, 우리는 보다 신뢰할 수 있는 개방형 답변 생성을 개선하는 OpenMedPrompt 파이프라인을 제안하여, 이 기술을 실용적인 응용에 더 가깝게 이끈다.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
natural language processing, and yet, their factual inaccuracies and
hallucinations limits their application, particularly in critical domains like
healthcare. Context retrieval methods, by introducing relevant information as
input, have emerged as a crucial approach for enhancing LLM factuality and
reliability. This study explores the boundaries of context retrieval methods
within the healthcare domain, optimizing their components and benchmarking
their performance against open and closed alternatives. Our findings reveal how
open LLMs, when augmented with an optimized retrieval system, can achieve
performance comparable to the biggest private solutions on established
healthcare benchmarks (multiple-choice question answering). Recognizing the
lack of realism of including the possible answers within the question (a setup
only found in medical exams), and after assessing a strong LLM performance
degradation in the absence of those options, we extend the context retrieval
system in that direction. In particular, we propose OpenMedPrompt a pipeline
that improves the generation of more reliable open-ended answers, moving this
technology closer to practical application.Summary
AI-Generated Summary