MedINST : Méta-ensemble d'instructions biomédicales
MedINST: Meta Dataset of Biomedical Instructions
October 17, 2024
Auteurs: Wenhan Han, Meng Fang, Zihan Zhang, Yu Yin, Zirui Song, Ling Chen, Mykola Pechenizkiy, Qingyu Chen
cs.AI
Résumé
L'intégration des techniques des grands modèles de langage (LLM) dans le domaine de l'analyse médicale a entraîné des avancées significatives, mais la rareté des ensembles de données volumineux, diversifiés et bien annotés reste un défi majeur. Les données et tâches médicales, qui varient en format, taille et autres paramètres, nécessitent un prétraitement et une standardisation approfondis pour une utilisation efficace dans l'entraînement des LLM. Pour relever ces défis, nous présentons MedINST, le Méta Ensemble de Données d'Instructions Biomédicales, un nouveau méta-ensemble d'instructions multi-domaines et multi-tâches. MedINST comprend 133 tâches de PNL biomédicale et plus de 7 millions d'échantillons d'entraînement, ce qui en fait l'ensemble de données d'instructions biomédicales le plus complet à ce jour. En utilisant MedINST comme méta-ensemble de données, nous élaborons MedINST32, un banc d'essai exigeant avec différentes difficultés de tâches visant à évaluer la capacité de généralisation des LLM. Nous affinons plusieurs LLM sur MedINST et évaluons sur MedINST32, démontrant une amélioration de la généralisation inter-tâches.
English
The integration of large language model (LLM) techniques in the field of
medical analysis has brought about significant advancements, yet the scarcity
of large, diverse, and well-annotated datasets remains a major challenge.
Medical data and tasks, which vary in format, size, and other parameters,
require extensive preprocessing and standardization for effective use in
training LLMs. To address these challenges, we introduce MedINST, the Meta
Dataset of Biomedical Instructions, a novel multi-domain, multi-task
instructional meta-dataset. MedINST comprises 133 biomedical NLP tasks and over
7 million training samples, making it the most comprehensive biomedical
instruction dataset to date. Using MedINST as the meta dataset, we curate
MedINST32, a challenging benchmark with different task difficulties aiming to
evaluate LLMs' generalization ability. We fine-tune several LLMs on MedINST and
evaluate on MedINST32, showcasing enhanced cross-task generalization.Summary
AI-Generated Summary