MINIMA: Corrispondenza di Immagini Invariante alla Modalità

Abstract

Il matching delle immagini sia per la corrispondenza tra viste diverse che tra diverse modalità svolge un ruolo critico nella percezione multimodale. Nella pratica, il divario di modalità causato da diversi sistemi/stili di imaging pone grandi sfide al compito di matching. I lavori esistenti cercano di estrarre caratteristiche invarianti per specifiche modalità e addestrare su dataset limitati, mostrando una scarsa generalizzazione. In questo articolo, presentiamo MINIMA, un framework unificato per il matching di immagini per molteplici casi cross-modal. Senza perseguire moduli sofisticati, il nostro MINIMA mira a migliorare le prestazioni universali dal punto di vista della scalabilità dei dati. A tale scopo, proponiamo un motore dati semplice ma efficace che può generare liberamente un ampio dataset contenente molteplici modalità, scenari ricchi ed etichette di matching accurate. In particolare, scaliamo le modalità dai dati di matching economici ma ricchi solo di RGB, mediante modelli generativi. In questo contesto, le etichette di matching e la ricca diversità del dataset RGB sono ereditate con successo dai dati multimodali generati. Beneficiando di ciò, costruiamo MD-syn, un nuovo dataset esaustivo che colma il divario di dati per il matching di immagini multimodali generale. Con MD-syn, possiamo addestrare direttamente qualsiasi pipeline di matching avanzata su coppie di modalità selezionate casualmente per ottenere la capacità cross-modal. Estesi esperimenti su compiti di matching in-domain e zero-shot, inclusi 19 casi cross-modal, dimostrano che il nostro MINIMA può superare significativamente i baselines e persino superare i metodi specifici della modalità. Il dataset e il codice sono disponibili su https://github.com/LSXI7/MINIMA.

English

Image matching for both cross-view and cross-modality plays a critical role in multimodal perception. In practice, the modality gap caused by different imaging systems/styles poses great challenges to the matching task. Existing works try to extract invariant features for specific modalities and train on limited datasets, showing poor generalization. In this paper, we present MINIMA, a unified image matching framework for multiple cross-modal cases. Without pursuing fancy modules, our MINIMA aims to enhance universal performance from the perspective of data scaling up. For such purpose, we propose a simple yet effective data engine that can freely produce a large dataset containing multiple modalities, rich scenarios, and accurate matching labels. Specifically, we scale up the modalities from cheap but rich RGB-only matching data, by means of generative models. Under this setting, the matching labels and rich diversity of the RGB dataset are well inherited by the generated multimodal data. Benefiting from this, we construct MD-syn, a new comprehensive dataset that fills the data gap for general multimodal image matching. With MD-syn, we can directly train any advanced matching pipeline on randomly selected modality pairs to obtain cross-modal ability. Extensive experiments on in-domain and zero-shot matching tasks, including 19 cross-modal cases, demonstrate that our MINIMA can significantly outperform the baselines and even surpass modality-specific methods. The dataset and code are available at https://github.com/LSXI7/MINIMA .

MINIMA: Corrispondenza di Immagini Invariante alla Modalità

MINIMA: Modality Invariant Image Matching

Abstract

Support