MedINST: Metadatensatz biomedizinischer Anweisungen
MedINST: Meta Dataset of Biomedical Instructions
October 17, 2024
Autoren: Wenhan Han, Meng Fang, Zihan Zhang, Yu Yin, Zirui Song, Ling Chen, Mykola Pechenizkiy, Qingyu Chen
cs.AI
Zusammenfassung
Die Integration von Techniken großer Sprachmodelle (Large Language Models, LLM) im Bereich der medizinischen Analyse hat signifikante Fortschritte gebracht, doch die Knappheit großer, vielfältiger und gut annotierter Datensätze bleibt eine große Herausforderung. Medizinische Daten und Aufgaben, die sich in Format, Größe und anderen Parametern unterscheiden, erfordern umfangreiche Vorverarbeitung und Standardisierung für eine effektive Verwendung beim Training von LLMs. Um diesen Herausforderungen zu begegnen, stellen wir MedINST vor, das Meta-Datenset biomedizinischer Anleitungen, ein neuartiges Multi-Domänen-, Multi-Task-Instruktions-Metadatenset. MedINST umfasst 133 biomedizinische NLP-Aufgaben und über 7 Millionen Trainingsbeispiele, was es zum umfassendsten biomedizinischen Anleitungsdatenset macht. Unter Verwendung von MedINST als Metadatenset kuratieren wir MedINST32, einen anspruchsvollen Benchmark mit unterschiedlichen Schwierigkeitsgraden, um die Generalisierungsfähigkeit von LLMs zu bewerten. Wir feinabstimmen mehrere LLMs auf MedINST und evaluieren auf MedINST32, wodurch eine verbesserte Generalisierung über verschiedene Aufgaben hinweg demonstriert wird.
English
The integration of large language model (LLM) techniques in the field of
medical analysis has brought about significant advancements, yet the scarcity
of large, diverse, and well-annotated datasets remains a major challenge.
Medical data and tasks, which vary in format, size, and other parameters,
require extensive preprocessing and standardization for effective use in
training LLMs. To address these challenges, we introduce MedINST, the Meta
Dataset of Biomedical Instructions, a novel multi-domain, multi-task
instructional meta-dataset. MedINST comprises 133 biomedical NLP tasks and over
7 million training samples, making it the most comprehensive biomedical
instruction dataset to date. Using MedINST as the meta dataset, we curate
MedINST32, a challenging benchmark with different task difficulties aiming to
evaluate LLMs' generalization ability. We fine-tune several LLMs on MedINST and
evaluate on MedINST32, showcasing enhanced cross-task generalization.Summary
AI-Generated Summary