ChatPaper.aiChatPaper

HealthGPT: 이질적 지식 적응을 통해 이해와 생성을 통합하는 의료 대형 비전-언어 모델

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

February 14, 2025
저자: Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi
cs.AI

초록

우리는 의료 시각 이해와 생성 능력을 통합된 자동회귀 패러다임 내에서 구현한 강력한 의료 대형 시각-언어 모델(Med-LVLM)인 HealthGPT를 소개합니다. 우리의 부트스트래핑 철학은 사전 학습된 대형 언어 모델(LLM)에 이질적인 이해 및 생성 지식을 점진적으로 적응시키는 것입니다. 이는 새로운 이질적 저순위 적응(H-LoRA) 기술을 통해 달성되며, 이는 맞춤형 계층적 시각 인식 접근법과 3단계 학습 전략으로 보완됩니다. HealthGPT를 효과적으로 학습시키기 위해, 우리는 VL-Health라는 포괄적인 의료 도메인 특화 이해 및 생성 데이터셋을 구축했습니다. 실험 결과는 HealthGPT가 의료 시각 통합 작업에서 탁월한 성능과 확장성을 보여줍니다. 본 프로젝트는 https://github.com/DCDmllm/HealthGPT에서 확인할 수 있습니다.
English
We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.

Summary

AI-Generated Summary

PDF92February 19, 2025