GMAI-VL & GMAI-VL-5.5M: Un grande modello visione-linguaggio e un dataset multimodale completo verso l'IA medica generale

GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

November 21, 2024
Autori: Tianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He
cs.AI

Abstract

Nonostante significativi progressi nell'intelligenza artificiale generale, come GPT-4, la loro efficacia nel dominio medico (intelligenza artificiale medica generale, GMAI) rimane limitata a causa dell'assenza di conoscenze mediche specializzate. Per affrontare questa sfida, presentiamo GMAI-VL-5.5M, un ampio dataset medico multimodale creato convertendo centinaia di dataset medici specializzati in coppie immagine-testo attentamente costruite. Questo dataset offre una copertura completa delle attività, diverse modalità e dati immagine-testo di alta qualità. Basandoci su questo dataset multimodale, proponiamo GMAI-VL, un modello di visione-linguaggio medico generale con una strategia di addestramento progressivo a tre fasi. Questo approccio migliora significativamente le capacità del modello integrando informazioni visive e testuali, migliorando così la sua capacità di elaborare dati multimodali e supportare diagnosi accurate e decisioni cliniche. Valutazioni sperimentali dimostrano che GMAI-VL raggiunge risultati all'avanguardia in una vasta gamma di attività mediche multimodali, come risposte a domande visive e diagnosi di immagini mediche. I nostri contributi includono lo sviluppo del dataset GMAI-VL-5.5M, l'introduzione del modello GMAI-VL e l'istituzione di nuovi benchmark in diversi domini medici. Il codice e il dataset saranno rilasciati su https://github.com/uni-medical/GMAI-VL.
English
Despite significant advancements in general artificial intelligence, such as GPT-4, their effectiveness in the medical domain (general medical AI, GMAI) remains constrained due to the absence of specialized medical knowledge. To address this challenge, we present GMAI-VL-5.5M, a comprehensive multimodal medical dataset created by converting hundreds of specialized medical datasets into meticulously constructed image-text pairs. This dataset features comprehensive task coverage, diverse modalities, and high-quality image-text data. Building upon this multimodal dataset, we propose GMAI-VL, a general medical vision-language model with a progressively three-stage training strategy. This approach significantly enhances the model's ability by integrating visual and textual information, thereby improving its ability to process multimodal data and support accurate diagnosis and clinical decision-making. Experimental evaluations demonstrate that GMAI-VL achieves state-of-the-art results across a wide range of multimodal medical tasks, such as visual question answering and medical image diagnosis. Our contributions include the development of the GMAI-VL-5.5M dataset, the introduction of the GMAI-VL model, and the establishment of new benchmarks in multiple medical domains. Code and dataset will be released at https://github.com/uni-medical/GMAI-VL.

Summary

AI-Generated Summary

PDF322November 26, 2024