ChatPaper.aiChatPaper

HuatuoGPT-o1, LLMs를 활용한 의료 복잡한 추론 방향으로

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

December 25, 2024
저자: Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang
cs.AI

초록

OpenAI o1의 중요한 발전은 추론 능력을 향상시킴으로써 LLM을 개선할 수 있는 잠재력을 강조합니다. 그러나 대부분의 추론 연구는 수학적 작업에 초점을 맞추어 의학과 같은 영역은 미개척 상태입니다. 의학 영역은 수학과는 다르지만, 높은 의료 기준을 충족하기 위해 신뢰할 수 있는 답변을 제공하기 위해 견고한 추론을 요구합니다. 그러나 의학적 추론을 확인하는 것은 수학과는 다르게 어려운 일입니다. 이를 해결하기 위해 우리는 의료 검증기를 사용하여 모델 출력의 정확성을 확인하는 검증 가능한 의료 문제를 제안합니다. 이러한 검증 가능한 특성은 의료 추론의 발전을 가능하게 하며 다음과 같은 이차 접근법을 통해 구현됩니다: (1) 복잡한 추론 궤적을 찾기 위해 검증기를 사용하여 LLM을 미세 조정하고, (2) 검증기 기반 보상을 사용하여 강화 학습(RL)을 적용하여 더욱 복잡한 추론을 강화합니다. 마지막으로, 복잡한 추론이 의료 문제 해결을 개선하고 RL에서 더 많은 이점을 얻는 것을 실험을 통해 입증한 의료 LLM인 HuatuoGPT-o1을 소개합니다. 우리의 접근 방식이 의료 및 다른 전문 분야 전반에 걸쳐 추론의 발전을 영감으로 삼기를 희망합니다.
English
The breakthrough of OpenAI o1 highlights the potential of enhancing reasoning to improve LLM. Yet, most research in reasoning has focused on mathematical tasks, leaving domains like medicine underexplored. The medical domain, though distinct from mathematics, also demands robust reasoning to provide reliable answers, given the high standards of healthcare. However, verifying medical reasoning is challenging, unlike those in mathematics. To address this, we propose verifiable medical problems with a medical verifier to check the correctness of model outputs. This verifiable nature enables advancements in medical reasoning through a two-stage approach: (1) using the verifier to guide the search for a complex reasoning trajectory for fine-tuning LLMs, (2) applying reinforcement learning (RL) with verifier-based rewards to enhance complex reasoning further. Finally, we introduce HuatuoGPT-o1, a medical LLM capable of complex reasoning, which outperforms general and medical-specific baselines using only 40K verifiable problems. Experiments show complex reasoning improves medical problem-solving and benefits more from RL. We hope our approach inspires advancements in reasoning across medical and other specialized domains.

Summary

AI-Generated Summary

PDF976December 30, 2024