MedINST: Meta Dataset van Biomedische Instructies

MedINST: Meta Dataset of Biomedical Instructions

October 17, 2024
Auteurs: Wenhan Han, Meng Fang, Zihan Zhang, Yu Yin, Zirui Song, Ling Chen, Mykola Pechenizkiy, Qingyu Chen
cs.AI

Samenvatting

De integratie van technieken van grote taalmodellen (GTM) in het veld van medische analyse heeft aanzienlijke vooruitgang gebracht, maar de schaarste aan grote, diverse en goed geannoteerde datasets blijft een belangrijke uitdaging. Medische gegevens en taken, die variëren in formaat, omvang en andere parameters, vereisen uitgebreide voorverwerking en standaardisatie voor effectief gebruik bij het trainen van GTM's. Om deze uitdagingen aan te pakken, introduceren we MedINST, de Meta Dataset van Biomedische Instructies, een nieuw multi-domein, multi-taak instructie meta-dataset. MedINST omvat 133 biomedische NLP-taken en meer dan 7 miljoen trainingsvoorbeelden, waardoor het de meest uitgebreide biomedische instructiedataset tot nu toe is. Met behulp van MedINST als de meta dataset, stellen we MedINST32 samen, een uitdagende benchmark met verschillende taakmoeilijkheden die tot doel heeft de generalisatiecapaciteit van GTM's te evalueren. We fine-tunen verschillende GTM's op MedINST en evalueren deze op MedINST32, waarbij we verbeterde generalisatie over verschillende taken aantonen.
English
The integration of large language model (LLM) techniques in the field of medical analysis has brought about significant advancements, yet the scarcity of large, diverse, and well-annotated datasets remains a major challenge. Medical data and tasks, which vary in format, size, and other parameters, require extensive preprocessing and standardization for effective use in training LLMs. To address these challenges, we introduce MedINST, the Meta Dataset of Biomedical Instructions, a novel multi-domain, multi-task instructional meta-dataset. MedINST comprises 133 biomedical NLP tasks and over 7 million training samples, making it the most comprehensive biomedical instruction dataset to date. Using MedINST as the meta dataset, we curate MedINST32, a challenging benchmark with different task difficulties aiming to evaluate LLMs' generalization ability. We fine-tune several LLMs on MedINST and evaluate on MedINST32, showcasing enhanced cross-task generalization.

Summary

AI-Generated Summary

PDF62November 16, 2024