AutoMIR: Effectieve Zero-Shot Medische Informatieopvraging zonder Relevantielabels
AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels
October 26, 2024
Auteurs: Lei Li, Xiangxu Zhang, Xiao Zhou, Zheng Liu
cs.AI
Samenvatting
Het ophalen van medische informatie (MIR) is essentieel voor het verkrijgen van relevante medische kennis uit diverse bronnen, waaronder elektronische patiëntendossiers, wetenschappelijke literatuur en medische databases. Het bereiken van effectieve zero-shot dense retrieval in het medische domein vormt echter aanzienlijke uitdagingen vanwege het gebrek aan relevant gelabelde gegevens. In dit artikel introduceren we een nieuw benadering genaamd Zelflerende Hypothetische Document Embeddings (SL-HyDE) om dit probleem aan te pakken. SL-HyDE maakt gebruik van grote taalmodellen (LLM's) als generatoren om hypothetische documenten te genereren op basis van een gegeven query. Deze gegenereerde documenten bevatten essentiële medische context, die een dense retriever begeleiden bij het identificeren van de meest relevante documenten. Het zelflerende raamwerk verfijnt progressief zowel de pseudo-documentgeneratie als de retrieval, waarbij ongelabelde medische corpora worden gebruikt zonder de noodzaak van enige relevant gelabelde gegevens. Daarnaast presenteren we de Chinese Medische Informatie Retrieval Benchmark (CMIRB), een uitgebreid evaluatiekader gebaseerd op realistische medische scenario's, met vijf taken en tien datasets. Door tien modellen te benchmarken op CMIRB, stellen we een rigoureuze standaard vast voor het evalueren van medische informatieretrievalsystemen. Experimentele resultaten tonen aan dat SL-HyDE aanzienlijk beter presteert dan bestaande methoden wat betreft retrieval-accuraatheid, terwijl het sterke generalisatie en schaalbaarheid vertoont over verschillende LLM- en retrieverconfiguraties. CMIRB-gegevens en evaluatiecode zijn openbaar beschikbaar op: https://github.com/CMIRB-benchmark/CMIRB.
English
Medical information retrieval (MIR) is essential for retrieving relevant
medical knowledge from diverse sources, including electronic health records,
scientific literature, and medical databases. However, achieving effective
zero-shot dense retrieval in the medical domain poses substantial challenges
due to the lack of relevance-labeled data. In this paper, we introduce a novel
approach called Self-Learning Hypothetical Document Embeddings (SL-HyDE) to
tackle this issue. SL-HyDE leverages large language models (LLMs) as generators
to generate hypothetical documents based on a given query. These generated
documents encapsulate key medical context, guiding a dense retriever in
identifying the most relevant documents. The self-learning framework
progressively refines both pseudo-document generation and retrieval, utilizing
unlabeled medical corpora without requiring any relevance-labeled data.
Additionally, we present the Chinese Medical Information Retrieval Benchmark
(CMIRB), a comprehensive evaluation framework grounded in real-world medical
scenarios, encompassing five tasks and ten datasets. By benchmarking ten models
on CMIRB, we establish a rigorous standard for evaluating medical information
retrieval systems. Experimental results demonstrate that SL-HyDE significantly
surpasses existing methods in retrieval accuracy while showcasing strong
generalization and scalability across various LLM and retriever configurations.
CMIRB data and evaluation code are publicly available at:
https://github.com/CMIRB-benchmark/CMIRB.Summary
AI-Generated Summary