O1 Replikationsreise - Teil 3: Skalierung zur Inferenzzeit für medizinisches Schlussfolgern
O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning
January 11, 2025
Autoren: Zhongzhen Huang, Gui Geng, Shengyi Hua, Zhen Huang, Haoyang Zou, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang
cs.AI
Zusammenfassung
Aufbauend auf unseren früheren Untersuchungen zur O1-Replikation (Teil 1: Journey Learning [Qin et al., 2024] und Teil 2: Destillation [Huang et al., 2024]) erforscht diese Arbeit das Potenzial der Skalierung zur Inferenzzeit in großen Sprachmodellen (LLMs) für medizinische Schlussfolgerungsaufgaben, die von diagnostischen Entscheidungen bis zur Behandlungsplanung reichen. Durch umfangreiche Experimente an medizinischen Benchmarks unterschiedlicher Komplexität (MedQA, Medbullets und JAMA Clinical Challenges) zeigt unsere Untersuchung mehrere Schlüsselerkenntnisse auf: (1) Eine Erhöhung der Inferenzzeit führt zu einer verbesserten Leistung. Mit einem bescheidenen Trainingssatz von 500 Proben erzielt unser Modell signifikante Leistungssteigerungen von 6%-11%. (2) Die Aufgabenkomplexität korreliert direkt mit der erforderlichen Länge der Schlussfolgerungsketten und bestätigt somit die Notwendigkeit erweiterter Denkprozesse für anspruchsvolle Probleme. (3) Die differentiellen Diagnosen, die von unserem Modell generiert werden, entsprechen den Prinzipien der hypothetisch-deduktiven Methode, indem sie eine Liste potenzieller Zustände erstellen, die die Symptome eines Patienten erklären könnten, und diese Möglichkeiten systematisch einschränken, indem sie die Beweise bewerten. Diese Ergebnisse zeigen die vielversprechende Synergie zwischen der Skalierung zur Inferenzzeit und dem Journey Learning bei der Weiterentwicklung der klinischen Schlussfolgerungsfähigkeiten von LLMs in der realen Welt.
English
Building upon our previous investigations of O1 replication (Part 1: Journey
Learning [Qin et al., 2024] and Part 2: Distillation [Huang et al., 2024]),
this work explores the potential of inference-time scaling in large language
models (LLMs) for medical reasoning tasks, ranging from diagnostic
decision-making to treatment planning. Through extensive experiments on medical
benchmarks of varying complexity (MedQA, Medbullets, and JAMA Clinical
Challenges), our investigation reveals several key insights: (1) Increasing
inference time does lead to improved performance. With a modest training set of
500 samples, our model yields substantial performance improvements of 6%-11%.
(2) Task complexity directly correlates with the required length of reasoning
chains, confirming the necessity of extended thought processes for challenging
problems. (3) The differential diagnoses generated by our model adhere to the
principles of the hypothetico-deductive method, producing a list of potential
conditions that may explain a patient's symptoms and systematically narrowing
these possibilities by evaluating the evidence. These findings demonstrate the
promising synergy between inference-time scaling and journey learning in
advancing LLMs' real-world clinical reasoning capabilities.Summary
AI-Generated Summary