MMed-RAG: 의료 비전 언어 모델을 위한 다재다능한 다중 모달 RAG 시스템

MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models

October 16, 2024
저자: Peng Xia, Kangyu Zhu, Haoran Li, Tianze Wang, Weijia Shi, Sheng Wang, Linjun Zhang, James Zou, Huaxiu Yao
cs.AI

초록

인공 지능 (AI)은 특히 질병 진단 및 치료 계획 분야에서 건강 관리에 상당한 잠재력을 보여주고 있습니다. 최근 의료 대규모 시각-언어 모델(Med-LVLMs)의 발전은 대화식 진단 도구에 대한 새로운 가능성을 열어주었습니다. 그러나 이러한 모델들은 종종 사실상의 환각(factual hallucination)으로 인해 잘못된 진단으로 이어질 수 있습니다. 세밀 조정(fine-tuning) 및 검색 증강 생성(RAG)은 이러한 문제를 해결하기 위한 방법으로 등장했습니다. 그러나 고품질 데이터의 양과 훈련 데이터와 배포 데이터 간의 분포 변화는 세밀 조정 방법의 적용을 제한합니다. RAG는 가벼우면서 효과적이지만, 기존의 RAG 기반 접근 방식은 다양한 의료 분야에 대해 충분히 일반적이지 않을 뿐 아니라, 모달리티 간 및 모델과 실제 사실 간의 불일치 문제를 일으킬 수 있습니다. 본 논문에서는 Med-LVLMs의 사실성을 향상시키기 위해 설계된 다목적 멀티모달 RAG 시스템인 MMed-RAG를 제안합니다. 저희 방법론은 도메인 인식 검색 메커니즘, 적응형 검색된 컨텍스트 선택 방법, 증명 가능한 RAG 기반 선호 세밀 조정 전략을 도입합니다. 이러한 혁신들은 RAG 프로세스를 충분히 일반적이고 신뢰성 있게 만들어주며, 검색된 컨텍스트를 도입할 때 일치성을 크게 향상시킵니다. 의료 VQA 및 보고서 생성을 포함한 다섯 가지 의료 데이터셋(방사선학, 안과학, 병리학)에서의 실험 결과는 MMed-RAG가 Med-LVLMs의 사실적 정확도를 평균 43.8% 향상시킬 수 있다는 것을 보여줍니다. 저희 데이터와 코드는 https://github.com/richard-peng-xia/MMed-RAG에서 이용 가능합니다.
English
Artificial Intelligence (AI) has demonstrated significant potential in healthcare, particularly in disease diagnosis and treatment planning. Recent progress in Medical Large Vision-Language Models (Med-LVLMs) has opened up new possibilities for interactive diagnostic tools. However, these models often suffer from factual hallucination, which can lead to incorrect diagnoses. Fine-tuning and retrieval-augmented generation (RAG) have emerged as methods to address these issues. However, the amount of high-quality data and distribution shifts between training data and deployment data limit the application of fine-tuning methods. Although RAG is lightweight and effective, existing RAG-based approaches are not sufficiently general to different medical domains and can potentially cause misalignment issues, both between modalities and between the model and the ground truth. In this paper, we propose a versatile multimodal RAG system, MMed-RAG, designed to enhance the factuality of Med-LVLMs. Our approach introduces a domain-aware retrieval mechanism, an adaptive retrieved contexts selection method, and a provable RAG-based preference fine-tuning strategy. These innovations make the RAG process sufficiently general and reliable, significantly improving alignment when introducing retrieved contexts. Experimental results across five medical datasets (involving radiology, ophthalmology, pathology) on medical VQA and report generation demonstrate that MMed-RAG can achieve an average improvement of 43.8% in the factual accuracy of Med-LVLMs. Our data and code are available in https://github.com/richard-peng-xia/MMed-RAG.

Summary

AI-Generated Summary

PDF203November 16, 2024