ChatPaper.aiChatPaper

HealthGPT: Un Modello Medico Multimodale su Grande Scala per l'Unificazione di Comprensione e Generazione tramite Adattamento di Conoscenza Eterogenea

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

February 14, 2025
Autori: Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi
cs.AI

Abstract

Presentiamo HealthGPT, un potente Modello Medico di Grande Visione-Linguaggio (Med-LVLM) che integra capacità di comprensione e generazione visiva medica all'interno di un paradigma autoregressivo unificato. La nostra filosofia di bootstrap consiste nell'adattare progressivamente conoscenze eterogenee di comprensione e generazione a modelli linguistici di grandi dimensioni (LLM) pre-addestrati. Questo è ottenuto attraverso una innovativa tecnica di adattamento eterogeneo a basso rango (H-LoRA), integrata da un approccio di percezione visiva gerarchica su misura e da una strategia di apprendimento in tre fasi. Per addestrare efficacemente HealthGPT, abbiamo sviluppato un dataset completo specifico per il dominio medico, chiamato VL-Health, dedicato alla comprensione e alla generazione. I risultati sperimentali dimostrano prestazioni eccezionali e scalabilità di HealthGPT in compiti unificati di visione medica. Il nostro progetto è accessibile all'indirizzo https://github.com/DCDmllm/HealthGPT.
English
We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.

Summary

AI-Generated Summary

PDF102February 19, 2025