Sulla Generalizzazione Composizionale dei Modelli di Linguaggio Multimodali per l'Imaging Medico
On the Compositional Generalization of Multimodal LLMs for Medical Imaging
December 28, 2024
Autori: Zhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno un notevole potenziale nel campo medico, ma le loro capacità sono spesso limitate da dati insufficienti in determinati ambiti medici, evidenziando la necessità di comprendere quali tipi di immagini possono essere utilizzati dai MLLM per la generalizzazione. La ricerca attuale suggerisce che l'addestramento multi-task supera quello single-task poiché diversi compiti possono beneficiare reciprocamente, ma spesso trascurano le relazioni interne all'interno di tali compiti, fornendo indicazioni limitate sulla selezione di set di dati per potenziare compiti specifici. Per analizzare questo fenomeno, abbiamo cercato di impiegare la generalizzazione compositiva (CG) - la capacità dei modelli di comprendere combinazioni nuove ricombinando elementi appresi - come quadro guida. Poiché le immagini mediche possono essere definite precisamente per Modalità, Area anatomica e Compito, offrendo naturalmente un ambiente per esplorare la CG. Pertanto, abbiamo assemblato 106 set di dati medici per creare Med-MAT per esperimenti esaustivi. Gli esperimenti hanno confermato che i MLLM possono utilizzare la CG per comprendere immagini mediche non viste e hanno identificato la CG come uno dei principali motori della generalizzazione osservata nell'addestramento multi-task. Inoltre, ulteriori studi hanno dimostrato che la CG supporta efficacemente set di dati con dati limitati e fornisce prestazioni coerenti su diverse strutture di base, evidenziandone la versatilità e ampia applicabilità. Med-MAT è disponibile pubblicamente su https://github.com/FreedomIntelligence/Med-MAT.
English
Multimodal large language models (MLLMs) hold significant potential in the
medical field, but their capabilities are often limited by insufficient data in
certain medical domains, highlighting the need for understanding what kinds of
images can be used by MLLMs for generalization. Current research suggests that
multi-task training outperforms single-task as different tasks can benefit each
other, but they often overlook the internal relationships within these tasks,
providing limited guidance on selecting datasets to enhance specific tasks. To
analyze this phenomenon, we attempted to employ compositional generalization
(CG)-the ability of models to understand novel combinations by recombining
learned elements-as a guiding framework. Since medical images can be precisely
defined by Modality, Anatomical area, and Task, naturally providing an
environment for exploring CG. Therefore, we assembled 106 medical datasets to
create Med-MAT for comprehensive experiments. The experiments confirmed that
MLLMs can use CG to understand unseen medical images and identified CG as one
of the main drivers of the generalization observed in multi-task training.
Additionally, further studies demonstrated that CG effectively supports
datasets with limited data and delivers consistent performance across different
backbones, highlighting its versatility and broad applicability. Med-MAT is
publicly available at https://github.com/FreedomIntelligence/Med-MAT.Summary
AI-Generated Summary