MINIMA: Corrispondenza di Immagini Invariante alla Modalità
MINIMA: Modality Invariant Image Matching
December 27, 2024
Autori: Xingyu Jiang, Jiangwei Ren, Zizhuo Li, Xin Zhou, Dingkang Liang, Xiang Bai
cs.AI
Abstract
Il matching delle immagini sia per la corrispondenza tra viste diverse che tra diverse modalità svolge un ruolo critico nella percezione multimodale. Nella pratica, il divario di modalità causato da diversi sistemi/stili di imaging pone grandi sfide al compito di matching. I lavori esistenti cercano di estrarre caratteristiche invarianti per specifiche modalità e addestrare su dataset limitati, mostrando una scarsa generalizzazione. In questo articolo, presentiamo MINIMA, un framework unificato per il matching di immagini per molteplici casi cross-modal. Senza perseguire moduli sofisticati, il nostro MINIMA mira a migliorare le prestazioni universali dal punto di vista della scalabilità dei dati. A tale scopo, proponiamo un motore dati semplice ma efficace che può generare liberamente un ampio dataset contenente molteplici modalità, scenari ricchi ed etichette di matching accurate. In particolare, scaliamo le modalità dai dati di matching economici ma ricchi solo di RGB, mediante modelli generativi. In questo contesto, le etichette di matching e la ricca diversità del dataset RGB sono ereditate con successo dai dati multimodali generati. Beneficiando di ciò, costruiamo MD-syn, un nuovo dataset esaustivo che colma il divario di dati per il matching di immagini multimodali generale. Con MD-syn, possiamo addestrare direttamente qualsiasi pipeline di matching avanzata su coppie di modalità selezionate casualmente per ottenere la capacità cross-modal. Estesi esperimenti su compiti di matching in-domain e zero-shot, inclusi 19 casi cross-modal, dimostrano che il nostro MINIMA può superare significativamente i baselines e persino superare i metodi specifici della modalità. Il dataset e il codice sono disponibili su https://github.com/LSXI7/MINIMA.
English
Image matching for both cross-view and cross-modality plays a critical role
in multimodal perception. In practice, the modality gap caused by different
imaging systems/styles poses great challenges to the matching task. Existing
works try to extract invariant features for specific modalities and train on
limited datasets, showing poor generalization. In this paper, we present
MINIMA, a unified image matching framework for multiple cross-modal cases.
Without pursuing fancy modules, our MINIMA aims to enhance universal
performance from the perspective of data scaling up. For such purpose, we
propose a simple yet effective data engine that can freely produce a large
dataset containing multiple modalities, rich scenarios, and accurate matching
labels. Specifically, we scale up the modalities from cheap but rich RGB-only
matching data, by means of generative models. Under this setting, the matching
labels and rich diversity of the RGB dataset are well inherited by the
generated multimodal data. Benefiting from this, we construct MD-syn, a new
comprehensive dataset that fills the data gap for general multimodal image
matching. With MD-syn, we can directly train any advanced matching pipeline on
randomly selected modality pairs to obtain cross-modal ability. Extensive
experiments on in-domain and zero-shot matching tasks, including 19
cross-modal cases, demonstrate that our MINIMA can significantly outperform the
baselines and even surpass modality-specific methods. The dataset and code are
available at https://github.com/LSXI7/MINIMA .Summary
AI-Generated Summary