HealthGPT: Un Modello Medico Multimodale su Grande Scala per l'Unificazione di Comprensione e Generazione tramite Adattamento di Conoscenza Eterogenea

Abstract

Presentiamo HealthGPT, un potente Modello Medico di Grande Visione-Linguaggio (Med-LVLM) che integra capacità di comprensione e generazione visiva medica all'interno di un paradigma autoregressivo unificato. La nostra filosofia di bootstrap consiste nell'adattare progressivamente conoscenze eterogenee di comprensione e generazione a modelli linguistici di grandi dimensioni (LLM) pre-addestrati. Questo è ottenuto attraverso una innovativa tecnica di adattamento eterogeneo a basso rango (H-LoRA), integrata da un approccio di percezione visiva gerarchica su misura e da una strategia di apprendimento in tre fasi. Per addestrare efficacemente HealthGPT, abbiamo sviluppato un dataset completo specifico per il dominio medico, chiamato VL-Health, dedicato alla comprensione e alla generazione. I risultati sperimentali dimostrano prestazioni eccezionali e scalabilità di HealthGPT in compiti unificati di visione medica. Il nostro progetto è accessibile all'indirizzo https://github.com/DCDmllm/HealthGPT.

English

We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.

HealthGPT: Un Modello Medico Multimodale su Grande Scala per l'Unificazione di Comprensione e Generazione tramite Adattamento di Conoscenza Eterogenea

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Abstract

Summary

Support

Support