Sobre a Generalização Composicional de Modelos de Linguagem Multimodais para Imagens Médicas
On the Compositional Generalization of Multimodal LLMs for Medical Imaging
December 28, 2024
Autores: Zhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
cs.AI
Resumo
Os modelos de linguagem multimodais de grande escala (MLLMs) possuem um potencial significativo no campo médico, mas suas capacidades são frequentemente limitadas pela falta de dados em certos domínios médicos, destacando a necessidade de compreender que tipos de imagens podem ser utilizados pelos MLLMs para generalização. Pesquisas atuais sugerem que o treinamento multi-tarefa supera o treinamento de tarefa única, uma vez que diferentes tarefas podem se beneficiar mutuamente, porém muitas vezes negligenciam as relações internas dentro dessas tarefas, fornecendo orientações limitadas na seleção de conjuntos de dados para aprimorar tarefas específicas. Para analisar esse fenômeno, tentamos empregar a generalização composicional (CG) - a capacidade dos modelos de entender combinações novas recombinando elementos aprendidos - como um framework orientador. Uma vez que imagens médicas podem ser precisamente definidas por Modalidade, Área Anatômica e Tarefa, proporcionando naturalmente um ambiente para explorar a CG. Portanto, reunimos 106 conjuntos de dados médicos para criar o Med-MAT para experimentos abrangentes. Os experimentos confirmaram que os MLLMs podem utilizar a CG para compreender imagens médicas não vistas e identificaram a CG como um dos principais impulsionadores da generalização observada no treinamento multi-tarefa. Adicionalmente, estudos adicionais demonstraram que a CG apoia efetivamente conjuntos de dados com dados limitados e oferece desempenho consistente em diferentes arquiteturas, destacando sua versatilidade e ampla aplicabilidade. O Med-MAT está disponível publicamente em https://github.com/FreedomIntelligence/Med-MAT.
English
Multimodal large language models (MLLMs) hold significant potential in the
medical field, but their capabilities are often limited by insufficient data in
certain medical domains, highlighting the need for understanding what kinds of
images can be used by MLLMs for generalization. Current research suggests that
multi-task training outperforms single-task as different tasks can benefit each
other, but they often overlook the internal relationships within these tasks,
providing limited guidance on selecting datasets to enhance specific tasks. To
analyze this phenomenon, we attempted to employ compositional generalization
(CG)-the ability of models to understand novel combinations by recombining
learned elements-as a guiding framework. Since medical images can be precisely
defined by Modality, Anatomical area, and Task, naturally providing an
environment for exploring CG. Therefore, we assembled 106 medical datasets to
create Med-MAT for comprehensive experiments. The experiments confirmed that
MLLMs can use CG to understand unseen medical images and identified CG as one
of the main drivers of the generalization observed in multi-task training.
Additionally, further studies demonstrated that CG effectively supports
datasets with limited data and delivers consistent performance across different
backbones, highlighting its versatility and broad applicability. Med-MAT is
publicly available at https://github.com/FreedomIntelligence/Med-MAT.Summary
AI-Generated Summary