ChatPaper.aiChatPaper

의료 이미징을 위한 다중 모달 LLMs의 구성적 일반화에 관한 연구

On the Compositional Generalization of Multimodal LLMs for Medical Imaging

December 28, 2024
저자: Zhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
cs.AI

초록

다중 모달 대형 언어 모델(MLLMs)은 의료 분야에서 상당한 잠재력을 가지고 있지만 종종 특정 의료 분야에서 데이터가 부족하여 그 능력이 제한되며, MLLMs가 일반화를 위해 어떤 종류의 이미지를 사용할 수 있는지 이해하는 필요성을 강조한다. 현재 연구에 따르면, 다중 작업 훈련이 단일 작업보다 우수한 성과를 내는 것으로 나타나며, 서로 다른 작업이 서로 이익을 줄 수 있지만 이러한 작업 내부 관계를 종종 간과하여 특정 작업을 향상시키기 위한 데이터셋 선택에 제한된 지침을 제공한다. 이 현상을 분석하기 위해 우리는 학습된 요소를 재조합하여 새로운 조합을 이해하는 모델의 능력인 합성 일반화(CG)를 안내 프레임워크로 활용하려고 시도했다. 의료 이미지는 Modal, 해부 영역 및 작업에 의해 정확하게 정의될 수 있어 CG를 탐색하기 위한 환경을 자연스럽게 제공한다. 따라서 우리는 종합적인 실험을 위해 106개의 의료 데이터셋을 모아 Med-MAT를 만들었다. 실험은 MLLMs가 CG를 사용하여 보이지 않는 의료 이미지를 이해하고 다중 작업 훈련에서 관측된 일반화의 주요 원동력 중 하나로 CG를 확인했다. 게다가, 추가 연구에서 CG가 제한된 데이터를 지원하고 다양한 백본에서 일관된 성능을 제공하여 그 다양성과 광범위한 적용 가능성을 강조함으로써 효과적으로 지원함을 입증했다. Med-MAT는 https://github.com/FreedomIntelligence/Med-MAT에서 공개적으로 이용할 수 있다.
English
Multimodal large language models (MLLMs) hold significant potential in the medical field, but their capabilities are often limited by insufficient data in certain medical domains, highlighting the need for understanding what kinds of images can be used by MLLMs for generalization. Current research suggests that multi-task training outperforms single-task as different tasks can benefit each other, but they often overlook the internal relationships within these tasks, providing limited guidance on selecting datasets to enhance specific tasks. To analyze this phenomenon, we attempted to employ compositional generalization (CG)-the ability of models to understand novel combinations by recombining learned elements-as a guiding framework. Since medical images can be precisely defined by Modality, Anatomical area, and Task, naturally providing an environment for exploring CG. Therefore, we assembled 106 medical datasets to create Med-MAT for comprehensive experiments. The experiments confirmed that MLLMs can use CG to understand unseen medical images and identified CG as one of the main drivers of the generalization observed in multi-task training. Additionally, further studies demonstrated that CG effectively supports datasets with limited data and delivers consistent performance across different backbones, highlighting its versatility and broad applicability. Med-MAT is publicly available at https://github.com/FreedomIntelligence/Med-MAT.

Summary

AI-Generated Summary

PDF464December 31, 2024