MedINST: 생명 의학 지침의 메타 데이터셋
MedINST: Meta Dataset of Biomedical Instructions
October 17, 2024
저자: Wenhan Han, Meng Fang, Zihan Zhang, Yu Yin, Zirui Song, Ling Chen, Mykola Pechenizkiy, Qingyu Chen
cs.AI
초록
의료 분석 분야에 대규모 언어 모델 (LLM) 기술을 통합하는 것은 중요한 발전을 가져왔지만, 대규모이면서 다양하며 잘 주석이 달린 데이터셋의 부족은 여전히 주요한 과제입니다. 형식, 크기 및 기타 매개변수가 다양한 의료 데이터와 작업은 LLM 훈련에 효과적으로 활용하기 위해 광범위한 전처리와 표준화가 필요합니다. 이러한 과제를 해결하기 위해 우리는 MedINST, 생체 의학 지침의 메타 데이터셋으로 133가지 생체 의학 NLP 작업과 700만 개 이상의 훈련 샘플로 구성된 혁신적인 다중 도메인, 다중 작업 지침 메타 데이터셋을 소개합니다. MedINST를 메타 데이터셋으로 활용하여 우리는 서로 다른 작업 난이도를 가진 도전적인 벤치마크인 MedINST32를 만들어 LLM의 일반화 능력을 평가합니다. MedINST에서 여러 LLM을 세밀하게 조정하고 MedINST32에서 평가하여 작업 간 일반화 능력을 향상시키는 것을 보여줍니다.
English
The integration of large language model (LLM) techniques in the field of
medical analysis has brought about significant advancements, yet the scarcity
of large, diverse, and well-annotated datasets remains a major challenge.
Medical data and tasks, which vary in format, size, and other parameters,
require extensive preprocessing and standardization for effective use in
training LLMs. To address these challenges, we introduce MedINST, the Meta
Dataset of Biomedical Instructions, a novel multi-domain, multi-task
instructional meta-dataset. MedINST comprises 133 biomedical NLP tasks and over
7 million training samples, making it the most comprehensive biomedical
instruction dataset to date. Using MedINST as the meta dataset, we curate
MedINST32, a challenging benchmark with different task difficulties aiming to
evaluate LLMs' generalization ability. We fine-tune several LLMs on MedINST and
evaluate on MedINST32, showcasing enhanced cross-task generalization.Summary
AI-Generated Summary