BiMediX2: Esperto in Medicina Biologica LMM per Diverse Modalità Mediche

BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

December 10, 2024
Autori: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal
cs.AI

Abstract

Questo articolo presenta BiMediX2, un modello multimodale di grandi dimensioni (LMM) bilingue (arabo-inglese) per esperti di bio-medicina con un'architettura unificata che integra modalità testuali e visive, consentendo una comprensione avanzata delle immagini e applicazioni mediche. BiMediX2 sfrutta l'architettura Llama3.1 e integra le capacità testuali e visive per facilitare interazioni fluide sia in inglese che in arabo, supportando input basati su testo e conversazioni multi-turn che coinvolgono immagini mediche. Il modello è addestrato su un ampio dataset bilingue di assistenza sanitaria composto da 1,6 milioni di campioni di interazioni mediche diverse per entrambe le modalità testuale e visiva, mescolate in arabo e inglese. Proponiamo inoltre il primo benchmark medico bilingue basato su GPT-4o chiamato BiMed-MBench. BiMediX2 viene valutato su compiti basati su testo e immagini, raggiungendo prestazioni all'avanguardia su diversi benchmark medici. Supera i modelli recenti all'avanguardia nei benchmark di valutazione LLM medici. Il nostro modello stabilisce anche un nuovo benchmark nelle valutazioni mediche multimodali con oltre il 9% di miglioramento nelle valutazioni in inglese e oltre il 20% in quelle in arabo. Inoltre, supera GPT-4 di circa il 9% nelle valutazioni di accuratezza fattuale UPHILL e eccelle in vari compiti di risposta a domande visive mediche, generazione di report e riassunto di report. La pagina del progetto, comprensiva di codice sorgente e del modello addestrato, è disponibile su https://github.com/mbzuai-oryx/BiMediX2.
English
This paper introduces BiMediX2, a bilingual (Arabic-English) Bio-Medical EXpert Large Multimodal Model (LMM) with a unified architecture that integrates text and visual modalities, enabling advanced image understanding and medical applications. BiMediX2 leverages the Llama3.1 architecture and integrates text and visual capabilities to facilitate seamless interactions in both English and Arabic, supporting text-based inputs and multi-turn conversations involving medical images. The model is trained on an extensive bilingual healthcare dataset consisting of 1.6M samples of diverse medical interactions for both text and image modalities, mixed in Arabic and English. We also propose the first bilingual GPT-4o based medical LMM benchmark named BiMed-MBench. BiMediX2 is benchmarked on both text-based and image-based tasks, achieving state-of-the-art performance across several medical benchmarks. It outperforms recent state-of-the-art models in medical LLM evaluation benchmarks. Our model also sets a new benchmark in multimodal medical evaluations with over 9% improvement in English and over 20% in Arabic evaluations. Additionally, it surpasses GPT-4 by around 9% in UPHILL factual accuracy evaluations and excels in various medical Visual Question Answering, Report Generation, and Report Summarization tasks. The project page including source code and the trained model, is available at https://github.com/mbzuai-oryx/BiMediX2.

Summary

AI-Generated Summary

PDF262December 16, 2024