HuatuoGPT-o1, Verso un Ragionamento Medico Complesso con LLMs

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

December 25, 2024
Autori: Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang
cs.AI

Abstract

La svolta di OpenAI o1 mette in luce il potenziale di potenziare il ragionamento per migliorare LLM. Tuttavia, la maggior parte della ricerca sul ragionamento si è concentrata su compiti matematici, lasciando settori come la medicina poco esplorati. Il settore medico, sebbene distinto dalla matematica, richiede anche un ragionamento robusto per fornire risposte affidabili, date le elevate norme sanitarie. Tuttavia, verificare il ragionamento medico è impegnativo, a differenza di quello matematico. Per affrontare questo problema, proponiamo problemi medici verificabili con un verificatore medico per controllare la correttezza delle uscite del modello. Questa natura verificabile consente progressi nel ragionamento medico attraverso un approccio a due fasi: (1) utilizzando il verificatore per guidare la ricerca di una traiettoria di ragionamento complessa per il raffinamento dei LLM, (2) applicando l'apprendimento per rinforzo (RL) con ricompense basate sul verificatore per potenziare ulteriormente il ragionamento complesso. Infine, presentiamo HuatuoGPT-o1, un LLM medico capace di ragionamento complesso, che supera i modelli di base generali e specifici per la medicina utilizzando solo 40K problemi verificabili. Gli esperimenti mostrano che il ragionamento complesso migliora la risoluzione dei problemi medici e beneficia maggiormente dell'RL. Speriamo che il nostro approccio ispiri progressi nel ragionamento in settori medici e in altri settori specializzati.
English
The breakthrough of OpenAI o1 highlights the potential of enhancing reasoning to improve LLM. Yet, most research in reasoning has focused on mathematical tasks, leaving domains like medicine underexplored. The medical domain, though distinct from mathematics, also demands robust reasoning to provide reliable answers, given the high standards of healthcare. However, verifying medical reasoning is challenging, unlike those in mathematics. To address this, we propose verifiable medical problems with a medical verifier to check the correctness of model outputs. This verifiable nature enables advancements in medical reasoning through a two-stage approach: (1) using the verifier to guide the search for a complex reasoning trajectory for fine-tuning LLMs, (2) applying reinforcement learning (RL) with verifier-based rewards to enhance complex reasoning further. Finally, we introduce HuatuoGPT-o1, a medical LLM capable of complex reasoning, which outperforms general and medical-specific baselines using only 40K verifiable problems. Experiments show complex reasoning improves medical problem-solving and benefits more from RL. We hope our approach inspires advancements in reasoning across medical and other specialized domains.

Summary

AI-Generated Summary

PDF946December 30, 2024