O1 レプリケーションの旅 -- パート3: 医療推論のための推論時スケーリング
O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning
January 11, 2025
著者: Zhongzhen Huang, Gui Geng, Shengyi Hua, Zhen Huang, Haoyang Zou, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang
cs.AI
要旨
過去のO1複製に関する調査(Part 1: Journey Learning [Qin et al., 2024] および Part 2: Distillation [Huang et al., 2024])を基にして、本研究では、医療推論タスクにおける大規模言語モデル(LLMs)の推論時スケーリングの潜在能力を探求します。これには、診断意思決定から治療計画までの範囲が含まれます。MedQA、Medbullets、およびJAMA Clinical Challengesといった異なる複雑さの医療ベンチマークに対する包括的な実験を通じて、我々の調査はいくつかの重要な洞察を明らかにしました:(1)推論時間の増加は性能の向上につながります。500サンプルという控えめなトレーニングセットにより、我々のモデルは6%〜11%の大幅な性能向上を達成しました。 (2)タスクの複雑さは推論チェーンの必要な長さと直接相関しており、難解な問題に対する拡張された思考プロセスの必要性を確認しています。 (3)我々のモデルによって生成された鑑別診断は、仮説的演繹法の原則に従い、患者の症状を説明する可能性のある疾患のリストを生成し、証拠を評価することでこれらの可能性を系統的に絞り込んでいます。これらの知見は、推論時スケーリングとJourney Learningの有望なシナジーを示し、LLMsの現実世界の臨床推論能力の向上を促進しています。
English
Building upon our previous investigations of O1 replication (Part 1: Journey
Learning [Qin et al., 2024] and Part 2: Distillation [Huang et al., 2024]),
this work explores the potential of inference-time scaling in large language
models (LLMs) for medical reasoning tasks, ranging from diagnostic
decision-making to treatment planning. Through extensive experiments on medical
benchmarks of varying complexity (MedQA, Medbullets, and JAMA Clinical
Challenges), our investigation reveals several key insights: (1) Increasing
inference time does lead to improved performance. With a modest training set of
500 samples, our model yields substantial performance improvements of 6%-11%.
(2) Task complexity directly correlates with the required length of reasoning
chains, confirming the necessity of extended thought processes for challenging
problems. (3) The differential diagnoses generated by our model adhere to the
principles of the hypothetico-deductive method, producing a list of potential
conditions that may explain a patient's symptoms and systematically narrowing
these possibilities by evaluating the evidence. These findings demonstrate the
promising synergy between inference-time scaling and journey learning in
advancing LLMs' real-world clinical reasoning capabilities.Summary
AI-Generated Summary