医療画像のためのマルチモーダルLLMの合成的汎化に関する研究

On the Compositional Generalization of Multimodal LLMs for Medical Imaging

December 28, 2024
著者: Zhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLMs)は医療分野で大きな潜在能力を持っていますが、しばしば特定の医療領域におけるデータが不足しており、MLLMsが一般化に使用できる画像の種類を理解する必要性が強調されています。現在の研究では、複数タスクのトレーニングが単一タスクよりも優れていると示唆されており、異なるタスクが互いに利益をもたらすことができますが、これらのタスク内部の関係をしばしば見落としており、特定のタスクを強化するためのデータセットの選択に関する限られたガイダンスを提供しています。この現象を分析するために、我々は、学習した要素を再組み合わせることで新しい組み合わせを理解するモデルの能力である構成的一般化(CG)をガイドフレームワークとして採用しようとしました。医療画像はモダリティ、解剖領域、タスクによって正確に定義されるため、CGを探索する環境を自然に提供します。そのため、包括的な実験のために106の医療データセットを組み合わせてMed-MATを作成しました。実験は、MLLMsがCGを使用して見慣れない医療画像を理解し、複数タスクのトレーニングで観察される一般化の主要な要因の1つとしてCGを特定しました。さらに、さらなる研究では、CGがデータが限られているデータセットを効果的にサポートし、異なるバックボーン間で一貫したパフォーマンスを提供することが示され、その汎用性と広範な適用可能性が強調されました。Med-MATはhttps://github.com/FreedomIntelligence/Med-MAT で公開されています。
English
Multimodal large language models (MLLMs) hold significant potential in the medical field, but their capabilities are often limited by insufficient data in certain medical domains, highlighting the need for understanding what kinds of images can be used by MLLMs for generalization. Current research suggests that multi-task training outperforms single-task as different tasks can benefit each other, but they often overlook the internal relationships within these tasks, providing limited guidance on selecting datasets to enhance specific tasks. To analyze this phenomenon, we attempted to employ compositional generalization (CG)-the ability of models to understand novel combinations by recombining learned elements-as a guiding framework. Since medical images can be precisely defined by Modality, Anatomical area, and Task, naturally providing an environment for exploring CG. Therefore, we assembled 106 medical datasets to create Med-MAT for comprehensive experiments. The experiments confirmed that MLLMs can use CG to understand unseen medical images and identified CG as one of the main drivers of the generalization observed in multi-task training. Additionally, further studies demonstrated that CG effectively supports datasets with limited data and delivers consistent performance across different backbones, highlighting its versatility and broad applicability. Med-MAT is publicly available at https://github.com/FreedomIntelligence/Med-MAT.

Summary

AI-Generated Summary

PDF444December 31, 2024