HuatuoGPT-o1, Rumo ao Raciocínio Complexo em Medicina com LLMs
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
December 25, 2024
Autores: Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang
cs.AI
Resumo
A descoberta do OpenAI o1 destaca o potencial de aprimorar o raciocínio para melhorar o LLM. No entanto, a maioria das pesquisas em raciocínio tem se concentrado em tarefas matemáticas, deixando domínios como a medicina pouco explorados. O domínio médico, embora distinto da matemática, também exige um raciocínio robusto para fornecer respostas confiáveis, dadas as altas normas da assistência médica. No entanto, verificar o raciocínio médico é desafiador, ao contrário do que ocorre com a matemática. Para lidar com isso, propomos problemas médicos verificáveis com um verificador médico para verificar a correção das saídas do modelo. Essa natureza verificável possibilita avanços no raciocínio médico por meio de uma abordagem em duas etapas: (1) usar o verificador para orientar a busca por uma trajetória de raciocínio complexa para ajustar finamente os LLMs, (2) aplicar aprendizado por reforço (RL) com recompensas baseadas no verificador para aprimorar ainda mais o raciocínio complexo. Por fim, apresentamos o HuatuoGPT-o1, um LLM médico capaz de raciocínio complexo, que supera baselines gerais e específicos da área médica usando apenas 40 mil problemas verificáveis. Experimentos mostram que o raciocínio complexo melhora a resolução de problemas médicos e se beneficia mais do RL. Esperamos que nossa abordagem inspire avanços no raciocínio em domínios médicos e especializados.
English
The breakthrough of OpenAI o1 highlights the potential of enhancing reasoning
to improve LLM. Yet, most research in reasoning has focused on mathematical
tasks, leaving domains like medicine underexplored. The medical domain, though
distinct from mathematics, also demands robust reasoning to provide reliable
answers, given the high standards of healthcare. However, verifying medical
reasoning is challenging, unlike those in mathematics. To address this, we
propose verifiable medical problems with a medical verifier to check the
correctness of model outputs. This verifiable nature enables advancements in
medical reasoning through a two-stage approach: (1) using the verifier to guide
the search for a complex reasoning trajectory for fine-tuning LLMs, (2)
applying reinforcement learning (RL) with verifier-based rewards to enhance
complex reasoning further. Finally, we introduce HuatuoGPT-o1, a medical LLM
capable of complex reasoning, which outperforms general and medical-specific
baselines using only 40K verifiable problems. Experiments show complex
reasoning improves medical problem-solving and benefits more from RL. We hope
our approach inspires advancements in reasoning across medical and other
specialized domains.Summary
AI-Generated Summary