MedXpertQA: 전문가 수준 의료 추론과 이해력의 벤치마킹
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
January 30, 2025
저자: Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou
cs.AI
초록
우리는 전문가 수준의 의학 지식과 고급 추론을 평가하기 위한 매우 도전적이고 포괄적인 MedXpertQA 벤치마크를 소개합니다. MedXpertQA에는 17개 특수분야와 11개 신체 시스템에 걸친 4,460개의 질문이 포함되어 있습니다. 이는 텍스트 평가를 위한 Text와 다중모달 평가를 위한 MM 두 하위 집합을 포함하고 있습니다. 특히 MM은 다양한 이미지와 환자 기록, 진찰 결과를 포함한 풍부한 임상 정보로 전문가 수준의 시험 문제를 소개하여, 이미지 캡션에서 생성된 간단한 QA 쌍으로 구성된 전통적인 의학 다중모달 벤치마크와 구분됩니다. MedXpertQA는 MedQA와 같은 기존 벤치마크의 부족한 난이도를 해결하기 위해 엄격한 필터링과 증강을 적용하며, 임상 관련성과 포괄성을 향상시키기 위해 전문 분야 시험 문제를 통합합니다. 데이터 누출 위험을 완화하기 위해 데이터 합성을 수행하고 정확성과 신뢰성을 보장하기 위해 여러 차례의 전문가 리뷰를 실시합니다. 우리는 MedXpertQA에서 16개의 주요 모델을 평가합니다. 또한 의학은 수학과 코드를 넘어서는 추론 능력을 평가하기 위한 풍부하고 대표적인 환경을 제공하는 실제 의사 결정과 깊은 연관이 있습니다. 이를 위해, 우리는 o1과 유사한 모델의 평가를 용이하게 하기 위해 추론 중심 하위 집합을 개발합니다.
English
We introduce MedXpertQA, a highly challenging and comprehensive benchmark to
evaluate expert-level medical knowledge and advanced reasoning. MedXpertQA
includes 4,460 questions spanning 17 specialties and 11 body systems. It
includes two subsets, Text for text evaluation and MM for multimodal
evaluation. Notably, MM introduces expert-level exam questions with diverse
images and rich clinical information, including patient records and examination
results, setting it apart from traditional medical multimodal benchmarks with
simple QA pairs generated from image captions. MedXpertQA applies rigorous
filtering and augmentation to address the insufficient difficulty of existing
benchmarks like MedQA, and incorporates specialty board questions to improve
clinical relevance and comprehensiveness. We perform data synthesis to mitigate
data leakage risk and conduct multiple rounds of expert reviews to ensure
accuracy and reliability. We evaluate 16 leading models on MedXpertQA.
Moreover, medicine is deeply connected to real-world decision-making, providing
a rich and representative setting for assessing reasoning abilities beyond
mathematics and code. To this end, we develop a reasoning-oriented subset to
facilitate the assessment of o1-like models.Summary
AI-Generated Summary