O1 복제 여정 -- 제 3부: 의료 추론을 위한 추론 시간 스케일링
O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning
January 11, 2025
저자: Zhongzhen Huang, Gui Geng, Shengyi Hua, Zhen Huang, Haoyang Zou, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang
cs.AI
초록
이전에 수행한 O1 복제에 대한 조사(제1부: Journey Learning [Qin et al., 2024] 및 제2부: Distillation [Huang et al., 2024])를 기반으로, 본 연구는 의료 추론 작업을 위한 대형 언어 모델(LLMs)에서 추론 시간 스케일링의 잠재력을 탐구합니다. 이는 진단 의사 결정부터 치료 계획까지 다양한 의료 벤치마크에서의 광범위한 실험을 통해 이루어졌습니다(MedQA, Medbullets 및 JAMA Clinical Challenges). 우리의 조사는 다음과 같은 몇 가지 주요 통찰을 밝혀냅니다: (1) 추론 시간을 증가시키면 성능이 향상됩니다. 500개의 샘플로 구성된 적절한 훈련 세트로, 우리 모델은 6%-11%의 상당한 성능 향상을 보입니다. (2) 작업 복잡성은 추론 체인의 필요 길이와 직접적으로 관련이 있으며, 어려운 문제에 대한 확장된 사고 과정의 필요성을 확인합니다. (3) 우리 모델이 생성한 차별 진단은 가설-추론적 방법의 원칙을 준수하며, 환자의 증상을 설명할 수 있는 잠재적인 상태 목록을 생성하고 이러한 가능성을 체계적으로 평가하여 좁혀나갑니다. 이러한 발견은 추론 시간 스케일링과 Journey Learning이 LLM의 현실 세계 임상 추론 능력을 향상시키는 데 있어서 융합의 유망성을 입증합니다.
English
Building upon our previous investigations of O1 replication (Part 1: Journey
Learning [Qin et al., 2024] and Part 2: Distillation [Huang et al., 2024]),
this work explores the potential of inference-time scaling in large language
models (LLMs) for medical reasoning tasks, ranging from diagnostic
decision-making to treatment planning. Through extensive experiments on medical
benchmarks of varying complexity (MedQA, Medbullets, and JAMA Clinical
Challenges), our investigation reveals several key insights: (1) Increasing
inference time does lead to improved performance. With a modest training set of
500 samples, our model yields substantial performance improvements of 6%-11%.
(2) Task complexity directly correlates with the required length of reasoning
chains, confirming the necessity of extended thought processes for challenging
problems. (3) The differential diagnoses generated by our model adhere to the
principles of the hypothetico-deductive method, producing a list of potential
conditions that may explain a patient's symptoms and systematically narrowing
these possibilities by evaluating the evidence. These findings demonstrate the
promising synergy between inference-time scaling and journey learning in
advancing LLMs' real-world clinical reasoning capabilities.Summary
AI-Generated Summary