AutoMIR: 관련성 레이블 없이 효과적인 제로샷 의료 정보 검색
AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels
October 26, 2024
저자: Lei Li, Xiangxu Zhang, Xiao Zhou, Zheng Liu
cs.AI
초록
의료 정보 검색 (MIR)은 전자 건강 기록, 과학 문헌 및 의료 데이터베이스를 포함한 다양한 소스에서 관련 의료 지식을 검색하는 데 중요합니다. 그러나 의료 분야에서 효과적인 제로샷 밀집 검색을 달성하는 것은 관련성이 레이블이 지정되지 않은 데이터의 부족으로 인해 상당한 어려움을 겪습니다. 본 논문에서는 이 문제에 대처하기 위해 Self-Learning Hypothetical Document Embeddings (SL-HyDE)라는 새로운 접근 방식을 소개합니다. SL-HyDE는 대규모 언어 모델 (LLMs)을 생성기로 활용하여 주어진 쿼리를 기반으로 가상 문서를 생성하는 것을 통해 핵심 의료 맥락을 포함하는 생성된 문서를 활용하여 밀집 검색기가 가장 관련성 있는 문서를 식별하는 데 도움을 줍니다. 이 자기 학습 프레임워크는 관련성이 레이블이 지정되지 않은 의료 말뭉치를 활용하여 가상 문서 생성 및 검색을 점진적으로 개선하며 관련성이 레이블이 지정된 데이터를 요구하지 않습니다. 또한, 우리는 실제 의료 시나리오에 근거한 포괄적인 평가 프레임워크인 중국 의료 정보 검색 벤치마크 (CMIRB)를 제시합니다. 이는 다섯 가지 작업과 열 가지 데이터셋을 포함하며 CMIRB에서 열 가지 모델을 벤치마킹하여 의료 정보 검색 시스템을 평가하는 엄격한 기준을 설정합니다. 실험 결과는 SL-HyDE가 기존 방법보다 훨씬 뛰어난 검색 정확도를 보여주며 강력한 일반화 및 다양한 LLM 및 검색기 구성에 대한 확장성을 보여줍니다. CMIRB 데이터 및 평가 코드는 다음에서 공개적으로 이용할 수 있습니다: https://github.com/CMIRB-benchmark/CMIRB.
English
Medical information retrieval (MIR) is essential for retrieving relevant
medical knowledge from diverse sources, including electronic health records,
scientific literature, and medical databases. However, achieving effective
zero-shot dense retrieval in the medical domain poses substantial challenges
due to the lack of relevance-labeled data. In this paper, we introduce a novel
approach called Self-Learning Hypothetical Document Embeddings (SL-HyDE) to
tackle this issue. SL-HyDE leverages large language models (LLMs) as generators
to generate hypothetical documents based on a given query. These generated
documents encapsulate key medical context, guiding a dense retriever in
identifying the most relevant documents. The self-learning framework
progressively refines both pseudo-document generation and retrieval, utilizing
unlabeled medical corpora without requiring any relevance-labeled data.
Additionally, we present the Chinese Medical Information Retrieval Benchmark
(CMIRB), a comprehensive evaluation framework grounded in real-world medical
scenarios, encompassing five tasks and ten datasets. By benchmarking ten models
on CMIRB, we establish a rigorous standard for evaluating medical information
retrieval systems. Experimental results demonstrate that SL-HyDE significantly
surpasses existing methods in retrieval accuracy while showcasing strong
generalization and scalability across various LLM and retriever configurations.
CMIRB data and evaluation code are publicly available at:
https://github.com/CMIRB-benchmark/CMIRB.Summary
AI-Generated Summary