의학 분야에서 o1에 대한 예비 연구: 우리는 AI 의사에 더 가까워졌을까?
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?
September 23, 2024
저자: Yunfei Xie, Juncheng Wu, Haoqin Tu, Siwei Yang, Bingchen Zhao, Yongshuo Zong, Qiao Jin, Cihang Xie, Yuyin Zhou
cs.AI
초록
대형 언어 모델(Large Language Models, LLMs)은 다양한 영역과 작업에서 놀라운 능력을 보여주며 학습과 인지 분야의 지식 경계를 넓혀왔습니다. 최신 모델인 OpenAI의 o1은 강화 학습 전략을 사용하여 첫 번째로 사고 체인을 내재화한 LLM으로 돋보입니다. 이 모델은 다양한 일반 언어 작업에서 놀라운 능력을 보여주었지만 의학과 같은 전문 분야에서의 성능은 아직 알려지지 않았습니다. 따라서 본 보고서는 o1 모델을 다양한 의학 시나리오에서 탐색하며 이해, 추론 및 다국어성이라는 3가지 핵심 측면을 조사합니다. 구체적으로, 우리의 평가는 뉴 잉글랜드 의학 저널(NEJM)과 더 란셋(The Lancet)의 전문 의학 퀴즈를 기반으로 한 두 가지 새롭고 더 어려운 질문-답변(QA) 작업을 포함하여 37개 의학 데이터셋에서 데이터를 사용하여 6가지 작업을 포함합니다. 이러한 데이터셋은 MedQA와 같은 표준 의학 QA 벤치마크에 비해 더 많은 임상 관련성을 제공하며 현실 세계의 임상 유용성으로 더 효과적으로 번역됩니다. 우리의 o1에 대한 분석은 LLM의 향상된 추론 능력이 다양한 의학 지침을 이해하고 복잡한 임상 시나리오를 추론하는 데 도움이 될 수 있다는 점을 시사합니다. 특히, o1은 이전 GPT-4보다 정확도 면에서 19개 데이터셋과 두 가지 새롭게 생성된 복잡한 QA 시나리오에서 평균 6.2% 및 6.6% 우수함을 보입니다. 그러나 한편으로는 모델 능력과 기존 평가 프로토콜의 여러 약점을 확인하였습니다. 이에는 환각, 일관성 없는 다국어 능력, 평가를 위한 상이한 메트릭 등이 포함됩니다. 우리는 향후 연구를 위해 원시 데이터와 모델 출력물을 https://ucsc-vlaa.github.io/o1_medicine/에서 공개합니다.
English
Large language models (LLMs) have exhibited remarkable capabilities across
various domains and tasks, pushing the boundaries of our knowledge in learning
and cognition. The latest model, OpenAI's o1, stands out as the first LLM with
an internalized chain-of-thought technique using reinforcement learning
strategies. While it has demonstrated surprisingly strong capabilities on
various general language tasks, its performance in specialized fields such as
medicine remains unknown. To this end, this report provides a comprehensive
exploration of o1 on different medical scenarios, examining 3 key aspects:
understanding, reasoning, and multilinguality. Specifically, our evaluation
encompasses 6 tasks using data from 37 medical datasets, including two newly
constructed and more challenging question-answering (QA) tasks based on
professional medical quizzes from the New England Journal of Medicine (NEJM)
and The Lancet. These datasets offer greater clinical relevance compared to
standard medical QA benchmarks such as MedQA, translating more effectively into
real-world clinical utility. Our analysis of o1 suggests that the enhanced
reasoning ability of LLMs may (significantly) benefit their capability to
understand various medical instructions and reason through complex clinical
scenarios. Notably, o1 surpasses the previous GPT-4 in accuracy by an average
of 6.2% and 6.6% across 19 datasets and two newly created complex QA scenarios.
But meanwhile, we identify several weaknesses in both the model capability and
the existing evaluation protocols, including hallucination, inconsistent
multilingual ability, and discrepant metrics for evaluation. We release our raw
data and model outputs at https://ucsc-vlaa.github.io/o1_medicine/ for future
research.Summary
AI-Generated Summary