Viaggio di Replicazione O1 - Parte 3: Scaling al Tempo di Inferenza per il Ragionamento Medico
O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning
January 11, 2025
Autori: Zhongzhen Huang, Gui Geng, Shengyi Hua, Zhen Huang, Haoyang Zou, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang
cs.AI
Abstract
Basandosi sulle nostre precedenti indagini sulla replicazione O1 (Parte 1: Apprendimento del Viaggio [Qin et al., 2024] e Parte 2: Distillazione [Huang et al., 2024]), questo lavoro esplora il potenziale della scalabilità al momento dell'inferenza nei modelli linguistici di grandi dimensioni (LLM) per compiti di ragionamento medico, che vanno dalla decisione diagnostica alla pianificazione del trattamento. Attraverso estesi esperimenti su benchmark medici di varia complessità (MedQA, Medbullets e JAMA Clinical Challenges), la nostra indagine rivela diverse intuizioni chiave: (1) Aumentare il tempo di inferenza porta a un miglioramento delle prestazioni. Con un modesto set di addestramento di 500 campioni, il nostro modello produce consistenti miglioramenti delle prestazioni del 6%-11%. (2) La complessità del compito correla direttamente con la lunghezza richiesta delle catene di ragionamento, confermando la necessità di processi di pensiero estesi per problemi impegnativi. (3) Le diagnosi differenziali generate dal nostro modello rispettano i principi del metodo ipotetico-deduttivo, producendo un elenco di condizioni potenziali che potrebbero spiegare i sintomi di un paziente e restringendo sistematicamente tali possibilità valutando le prove. Queste scoperte dimostrano la promettente sinergia tra la scalabilità al momento dell'inferenza e l'apprendimento del viaggio nell'avanzamento delle capacità di ragionamento clinico del mondo reale dei LLM.
English
Building upon our previous investigations of O1 replication (Part 1: Journey
Learning [Qin et al., 2024] and Part 2: Distillation [Huang et al., 2024]),
this work explores the potential of inference-time scaling in large language
models (LLMs) for medical reasoning tasks, ranging from diagnostic
decision-making to treatment planning. Through extensive experiments on medical
benchmarks of varying complexity (MedQA, Medbullets, and JAMA Clinical
Challenges), our investigation reveals several key insights: (1) Increasing
inference time does lead to improved performance. With a modest training set of
500 samples, our model yields substantial performance improvements of 6%-11%.
(2) Task complexity directly correlates with the required length of reasoning
chains, confirming the necessity of extended thought processes for challenging
problems. (3) The differential diagnoses generated by our model adhere to the
principles of the hypothetico-deductive method, producing a list of potential
conditions that may explain a patient's symptoms and systematically narrowing
these possibilities by evaluating the evidence. These findings demonstrate the
promising synergy between inference-time scaling and journey learning in
advancing LLMs' real-world clinical reasoning capabilities.Summary
AI-Generated Summary