HuatuoGPT-o1, Rumo ao Raciocínio Complexo em Medicina com LLMs

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

December 25, 2024
Autores: Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang
cs.AI

Resumo

A descoberta do OpenAI o1 destaca o potencial de aprimorar o raciocínio para melhorar o LLM. No entanto, a maioria das pesquisas em raciocínio tem se concentrado em tarefas matemáticas, deixando domínios como a medicina pouco explorados. O domínio médico, embora distinto da matemática, também exige um raciocínio robusto para fornecer respostas confiáveis, dadas as altas normas da assistência médica. No entanto, verificar o raciocínio médico é desafiador, ao contrário do que ocorre com a matemática. Para lidar com isso, propomos problemas médicos verificáveis com um verificador médico para verificar a correção das saídas do modelo. Essa natureza verificável possibilita avanços no raciocínio médico por meio de uma abordagem em duas etapas: (1) usar o verificador para orientar a busca por uma trajetória de raciocínio complexa para ajustar finamente os LLMs, (2) aplicar aprendizado por reforço (RL) com recompensas baseadas no verificador para aprimorar ainda mais o raciocínio complexo. Por fim, apresentamos o HuatuoGPT-o1, um LLM médico capaz de raciocínio complexo, que supera baselines gerais e específicos da área médica usando apenas 40 mil problemas verificáveis. Experimentos mostram que o raciocínio complexo melhora a resolução de problemas médicos e se beneficia mais do RL. Esperamos que nossa abordagem inspire avanços no raciocínio em domínios médicos e especializados.
English
The breakthrough of OpenAI o1 highlights the potential of enhancing reasoning to improve LLM. Yet, most research in reasoning has focused on mathematical tasks, leaving domains like medicine underexplored. The medical domain, though distinct from mathematics, also demands robust reasoning to provide reliable answers, given the high standards of healthcare. However, verifying medical reasoning is challenging, unlike those in mathematics. To address this, we propose verifiable medical problems with a medical verifier to check the correctness of model outputs. This verifiable nature enables advancements in medical reasoning through a two-stage approach: (1) using the verifier to guide the search for a complex reasoning trajectory for fine-tuning LLMs, (2) applying reinforcement learning (RL) with verifier-based rewards to enhance complex reasoning further. Finally, we introduce HuatuoGPT-o1, a medical LLM capable of complex reasoning, which outperforms general and medical-specific baselines using only 40K verifiable problems. Experiments show complex reasoning improves medical problem-solving and benefits more from RL. We hope our approach inspires advancements in reasoning across medical and other specialized domains.

Summary

AI-Generated Summary

PDF946December 30, 2024