BiMediX2: 다양한 의료 모달리티를 위한 생체 의학 전문가 LMM
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities
December 10, 2024
저자: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal
cs.AI
초록
본 논문은 바이매디엑스2(BiMediX2)를 소개합니다. 이는 통합 아키텍처를 갖춘 이중 언어(아랍어-영어) 생체 의학 전문 대규모 다중 모달 모델(LMM)로, 텍스트와 시각 모달리티를 통합하여 고급 이미지 이해와 의료 응용을 가능하게 합니다. 바이매디엑스2는 Llama3.1 아키텍처를 활용하며 텍스트와 시각 능력을 통합하여 영어와 아랍어 모두에서의 원활한 상호작용을 지원하며 의료 이미지를 포함한 다중 대화를 용이하게 합니다. 해당 모델은 텍스트와 이미지 모달리티에 대한 다양한 의료 상호작용 샘플 160만 건으로 이루어진 광범위한 이중 언어 의료 데이터셋에서 훈련되었으며, 아랍어와 영어가 혼합되어 있습니다. 또한 바이매디엑스-엠벤치(BiMed-MBench)라는 최초의 이중 언어 GPT-4o 기반 의료 LMM 벤치마크를 제안합니다. 바이매디엑스2는 텍스트 및 이미지 기반 작업에서 벤치마킹되어, 여러 의료 벤치마크에서 최첨단 성능을 달성합니다. 최근 최첨단 의료 LLM 평가 벤치마크에서 최신 모델들을 능가합니다. 또한 영어 평가에서 9% 이상, 아랍어 평가에서 20% 이상의 향상을 보이며 GPT-4를 약 9% 이상 능가하여 UPHILL 사실적 정확도 평가에서 우수한 성과를 거두며 다양한 의료 시각 질문 응답, 보고서 생성 및 요약 작업에서 뛰어난 결과를 보입니다. 소스 코드와 훈련된 모델을 포함한 프로젝트 페이지는 https://github.com/mbzuai-oryx/BiMediX2에서 확인할 수 있습니다.
English
This paper introduces BiMediX2, a bilingual (Arabic-English) Bio-Medical
EXpert Large Multimodal Model (LMM) with a unified architecture that integrates
text and visual modalities, enabling advanced image understanding and medical
applications. BiMediX2 leverages the Llama3.1 architecture and integrates text
and visual capabilities to facilitate seamless interactions in both English and
Arabic, supporting text-based inputs and multi-turn conversations involving
medical images. The model is trained on an extensive bilingual healthcare
dataset consisting of 1.6M samples of diverse medical interactions for both
text and image modalities, mixed in Arabic and English. We also propose the
first bilingual GPT-4o based medical LMM benchmark named BiMed-MBench. BiMediX2
is benchmarked on both text-based and image-based tasks, achieving
state-of-the-art performance across several medical benchmarks. It outperforms
recent state-of-the-art models in medical LLM evaluation benchmarks. Our model
also sets a new benchmark in multimodal medical evaluations with over 9%
improvement in English and over 20% in Arabic evaluations. Additionally, it
surpasses GPT-4 by around 9% in UPHILL factual accuracy evaluations and excels
in various medical Visual Question Answering, Report Generation, and Report
Summarization tasks. The project page including source code and the trained
model, is available at https://github.com/mbzuai-oryx/BiMediX2.