MedAgent-Pro: Verso una Diagnosi Medica Basata su Evidenze Multi-modali attraverso un Flusso di Lavoro Agente di Ragionamento
MedAgent-Pro: Towards Multi-modal Evidence-based Medical Diagnosis via Reasoning Agentic Workflow
March 21, 2025
Autori: Ziyue Wang, Junde Wu, Chang Han Low, Yueming Jin
cs.AI
Abstract
Lo sviluppo di sistemi di intelligenza artificiale affidabili per assistere i clinici umani nella diagnosi medica multi-modale è da tempo un obiettivo chiave per i ricercatori. Recentemente, i Modelli Linguistici Multi-modali di Grande Scala (MLLMs) hanno attirato notevole attenzione e ottenuto successi in vari ambiti. Grazie alle loro forti capacità di ragionamento e alla capacità di eseguire compiti diversificati in base alle istruzioni dell'utente, essi presentano un grande potenziale per migliorare la diagnosi medica. Tuttavia, l'applicazione diretta degli MLLMs al dominio medico presenta ancora delle sfide. Essi mancano di una percezione dettagliata degli input visivi, limitando la loro capacità di eseguire analisi quantitative delle immagini, che sono cruciali per la diagnostica medica. Inoltre, gli MLLMs spesso mostrano allucinazioni e incoerenze nel ragionamento, mentre le diagnosi cliniche devono aderire rigorosamente a criteri stabiliti. Per affrontare queste sfide, proponiamo MedAgent-Pro, un sistema agente di ragionamento basato su evidenze progettato per ottenere diagnosi mediche affidabili, spiegabili e precise. Questo viene realizzato attraverso un flusso di lavoro gerarchico: a livello di compito, il ragionamento basato sulla conoscenza genera piani diagnostici affidabili per specifiche malattie seguendo i criteri clinici recuperati. A livello di caso, invece, più agenti strumentali elaborano input multi-modali, analizzano diversi indicatori secondo il piano e forniscono una diagnosi finale basata su evidenze sia quantitative che qualitative. Esperimenti completi su compiti di diagnosi medica 2D e 3D dimostrano la superiorità e l'efficacia di MedAgent-Pro, mentre studi di caso ne evidenziano ulteriormente l'affidabilità e l'interpretabilità. Il codice è disponibile all'indirizzo https://github.com/jinlab-imvr/MedAgent-Pro.
English
Developing reliable AI systems to assist human clinicians in multi-modal
medical diagnosis has long been a key objective for researchers. Recently,
Multi-modal Large Language Models (MLLMs) have gained significant attention and
achieved success across various domains. With strong reasoning capabilities and
the ability to perform diverse tasks based on user instructions, they hold
great potential for enhancing medical diagnosis. However, directly applying
MLLMs to the medical domain still presents challenges. They lack detailed
perception of visual inputs, limiting their ability to perform quantitative
image analysis, which is crucial for medical diagnostics. Additionally, MLLMs
often exhibit hallucinations and inconsistencies in reasoning, whereas clinical
diagnoses must adhere strictly to established criteria. To address these
challenges, we propose MedAgent-Pro, an evidence-based reasoning agentic system
designed to achieve reliable, explainable, and precise medical diagnoses. This
is accomplished through a hierarchical workflow: at the task level,
knowledge-based reasoning generate reliable diagnostic plans for specific
diseases following retrieved clinical criteria. While at the case level,
multiple tool agents process multi-modal inputs, analyze different indicators
according to the plan, and provide a final diagnosis based on both quantitative
and qualitative evidence. Comprehensive experiments on both 2D and 3D medical
diagnosis tasks demonstrate the superiority and effectiveness of MedAgent-Pro,
while case studies further highlight its reliability and interpretability. The
code is available at https://github.com/jinlab-imvr/MedAgent-Pro.Summary
AI-Generated Summary