MINIMA: Correspondência de Imagens Invariante à Modalidade
MINIMA: Modality Invariant Image Matching
December 27, 2024
Autores: Xingyu Jiang, Jiangwei Ren, Zizhuo Li, Xin Zhou, Dingkang Liang, Xiang Bai
cs.AI
Resumo
A correspondência de imagens tanto para visões cruzadas quanto para multimodalidades desempenha um papel crítico na percepção multimodal. Na prática, a diferença de modalidade causada por diferentes sistemas/estilos de imagem impõe grandes desafios à tarefa de correspondência. Trabalhos existentes tentam extrair características invariantes para modalidades específicas e treinar em conjuntos de dados limitados, mostrando baixa generalização. Neste artigo, apresentamos MINIMA, um framework unificado de correspondência de imagens para múltiplos casos cruzados de modalidades. Sem buscar módulos sofisticados, nosso MINIMA tem como objetivo melhorar o desempenho universal do ponto de vista da ampliação dos dados. Para esse fim, propomos um mecanismo de dados simples, porém eficaz, que pode gerar livremente um grande conjunto de dados contendo múltiplas modalidades, cenários variados e rótulos de correspondência precisos. Especificamente, ampliamos as modalidades a partir de dados de correspondência apenas RGB baratos, por meio de modelos generativos. Nesse cenário, os rótulos de correspondência e a rica diversidade do conjunto de dados RGB são bem herdados pelos dados multimodais gerados. Beneficiando-se disso, construímos MD-syn, um novo conjunto de dados abrangente que preenche a lacuna de dados para correspondência de imagens multimodais gerais. Com MD-syn, podemos treinar diretamente qualquer pipeline de correspondência avançada em pares de modalidades selecionados aleatoriamente para obter capacidade cruzada de modalidades. Experimentos extensivos em tarefas de correspondência dentro do domínio e de zero-shot, incluindo 19 casos cruzados de modalidades, demonstram que nosso MINIMA pode superar significativamente as bases e até mesmo ultrapassar métodos específicos de modalidade. O conjunto de dados e o código estão disponíveis em https://github.com/LSXI7/MINIMA.
English
Image matching for both cross-view and cross-modality plays a critical role
in multimodal perception. In practice, the modality gap caused by different
imaging systems/styles poses great challenges to the matching task. Existing
works try to extract invariant features for specific modalities and train on
limited datasets, showing poor generalization. In this paper, we present
MINIMA, a unified image matching framework for multiple cross-modal cases.
Without pursuing fancy modules, our MINIMA aims to enhance universal
performance from the perspective of data scaling up. For such purpose, we
propose a simple yet effective data engine that can freely produce a large
dataset containing multiple modalities, rich scenarios, and accurate matching
labels. Specifically, we scale up the modalities from cheap but rich RGB-only
matching data, by means of generative models. Under this setting, the matching
labels and rich diversity of the RGB dataset are well inherited by the
generated multimodal data. Benefiting from this, we construct MD-syn, a new
comprehensive dataset that fills the data gap for general multimodal image
matching. With MD-syn, we can directly train any advanced matching pipeline on
randomly selected modality pairs to obtain cross-modal ability. Extensive
experiments on in-domain and zero-shot matching tasks, including 19
cross-modal cases, demonstrate that our MINIMA can significantly outperform the
baselines and even surpass modality-specific methods. The dataset and code are
available at https://github.com/LSXI7/MINIMA .Summary
AI-Generated Summary