Jornada de Replicação O1 - Parte 3: Escalonamento em Tempo de Inferência para Raciocínio Médico
O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning
January 11, 2025
Autores: Zhongzhen Huang, Gui Geng, Shengyi Hua, Zhen Huang, Haoyang Zou, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang
cs.AI
Resumo
Dando continuidade às nossas investigações anteriores sobre replicação O1 (Parte 1: Aprendizado da Jornada [Qin et al., 2024] e Parte 2: Destilação [Huang et al., 2024]), este trabalho explora o potencial da escalabilidade no tempo de inferência em grandes modelos de linguagem (LLMs) para tarefas de raciocínio médico, que vão desde tomadas de decisão diagnósticas até planejamento de tratamentos. Através de experimentos extensivos em benchmarks médicos de várias complexidades (MedQA, Medbullets e Desafios Clínicos da JAMA), nossa investigação revela diversas percepções-chave: (1) Aumentar o tempo de inferência realmente leva a melhorias de desempenho. Com um conjunto de treinamento modesto de 500 amostras, nosso modelo proporciona melhorias substanciais de desempenho de 6% a 11%. (2) A complexidade da tarefa se correlaciona diretamente com o comprimento necessário das cadeias de raciocínio, confirmando a necessidade de processos de pensamento estendidos para problemas desafiadores. (3) Os diagnósticos diferenciais gerados pelo nosso modelo seguem os princípios do método hipotético-dedutivo, produzindo uma lista de condições potenciais que podem explicar os sintomas de um paciente e reduzindo sistematicamente essas possibilidades avaliando as evidências. Essas descobertas demonstram a promissora sinergia entre a escalabilidade no tempo de inferência e o aprendizado da jornada no avanço das capacidades de raciocínio clínico do mundo real dos LLMs.
English
Building upon our previous investigations of O1 replication (Part 1: Journey
Learning [Qin et al., 2024] and Part 2: Distillation [Huang et al., 2024]),
this work explores the potential of inference-time scaling in large language
models (LLMs) for medical reasoning tasks, ranging from diagnostic
decision-making to treatment planning. Through extensive experiments on medical
benchmarks of varying complexity (MedQA, Medbullets, and JAMA Clinical
Challenges), our investigation reveals several key insights: (1) Increasing
inference time does lead to improved performance. With a modest training set of
500 samples, our model yields substantial performance improvements of 6%-11%.
(2) Task complexity directly correlates with the required length of reasoning
chains, confirming the necessity of extended thought processes for challenging
problems. (3) The differential diagnoses generated by our model adhere to the
principles of the hypothetico-deductive method, producing a list of potential
conditions that may explain a patient's symptoms and systematically narrowing
these possibilities by evaluating the evidence. These findings demonstrate the
promising synergy between inference-time scaling and journey learning in
advancing LLMs' real-world clinical reasoning capabilities.Summary
AI-Generated Summary