AutoMIR : Récupération d'Informations Médicales sans Étiquettes de Pertinence en Zéro-Shot de manière Efficace

AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels

October 26, 2024
Auteurs: Lei Li, Xiangxu Zhang, Xiao Zhou, Zheng Liu
cs.AI

Résumé

La recherche d'informations médicales (MIR) est essentielle pour extraire des connaissances médicales pertinentes à partir de sources diverses, y compris les dossiers de santé électroniques, la littérature scientifique et les bases de données médicales. Cependant, réaliser une récupération dense efficace sans entraînement dans le domaine médical pose des défis substantiels en raison du manque de données annotées en termes de pertinence. Dans cet article, nous présentons une approche novatrice appelée Incrustations de Documents Hypothétiques en Auto-Apprentissage (SL-HyDE) pour relever ce défi. SL-HyDE exploite de grands modèles de langage (LLMs) en tant que générateurs pour produire des documents hypothétiques basés sur une requête donnée. Ces documents générés encapsulent un contexte médical clé, guidant un récupérateur dense dans l'identification des documents les plus pertinents. Le cadre d'auto-apprentissage affine progressivement à la fois la génération de pseudo-documents et la récupération, en utilisant des corpus médicaux non étiquetés sans nécessiter de données annotées en termes de pertinence. De plus, nous présentons le Banc d'Évaluation de la Récupération d'Informations Médicales Chinoises (CMIRB), un cadre d'évaluation complet ancré dans des scénarios médicaux réels, englobant cinq tâches et dix ensembles de données. En évaluant dix modèles sur CMIRB, nous établissons une norme rigoureuse pour l'évaluation des systèmes de récupération d'informations médicales. Les résultats expérimentaux démontrent que SL-HyDE surpasse significativement les méthodes existantes en termes de précision de récupération tout en présentant une forte généralisation et une extensibilité à travers diverses configurations de LLM et de récupérateur. Les données CMIRB et le code d'évaluation sont disponibles publiquement sur : https://github.com/CMIRB-benchmark/CMIRB.
English
Medical information retrieval (MIR) is essential for retrieving relevant medical knowledge from diverse sources, including electronic health records, scientific literature, and medical databases. However, achieving effective zero-shot dense retrieval in the medical domain poses substantial challenges due to the lack of relevance-labeled data. In this paper, we introduce a novel approach called Self-Learning Hypothetical Document Embeddings (SL-HyDE) to tackle this issue. SL-HyDE leverages large language models (LLMs) as generators to generate hypothetical documents based on a given query. These generated documents encapsulate key medical context, guiding a dense retriever in identifying the most relevant documents. The self-learning framework progressively refines both pseudo-document generation and retrieval, utilizing unlabeled medical corpora without requiring any relevance-labeled data. Additionally, we present the Chinese Medical Information Retrieval Benchmark (CMIRB), a comprehensive evaluation framework grounded in real-world medical scenarios, encompassing five tasks and ten datasets. By benchmarking ten models on CMIRB, we establish a rigorous standard for evaluating medical information retrieval systems. Experimental results demonstrate that SL-HyDE significantly surpasses existing methods in retrieval accuracy while showcasing strong generalization and scalability across various LLM and retriever configurations. CMIRB data and evaluation code are publicly available at: https://github.com/CMIRB-benchmark/CMIRB.

Summary

AI-Generated Summary

PDF72November 16, 2024