MINIMA: Modaliteit Onafhankelijke Afbeeldingsvergelijking
MINIMA: Modality Invariant Image Matching
December 27, 2024
Auteurs: Xingyu Jiang, Jiangwei Ren, Zizhuo Li, Xin Zhou, Dingkang Liang, Xiang Bai
cs.AI
Samenvatting
Beeldmatching voor zowel cross-view als cross-modaliteit speelt een cruciale rol bij multimodale perceptie. In de praktijk zorgt de modaliteitskloof veroorzaakt door verschillende beeldvormingssystemen/-stijlen voor grote uitdagingen bij de matchingtaak. Bestaande werken proberen invariante kenmerken te extraheren voor specifieke modaliteiten en trainen op beperkte datasets, wat resulteert in een slechte generalisatie. In dit artikel presenteren we MINIMA, een verenigd beeldmatchingraamwerk voor meerdere cross-modale gevallen. Zonder te streven naar geavanceerde modules, heeft ons MINIMA als doel de universele prestaties te verbeteren vanuit het oogpunt van het opschalen van gegevens. Voor dit doel stellen we een eenvoudige maar effectieve gegevensengine voor die vrijelijk een grote dataset kan produceren met meerdere modaliteiten, diverse scenario's en nauwkeurige matchinglabels. Specifiek schalen we de modaliteiten op van goedkope maar rijke RGB-alleen matchinggegevens, met behulp van generatieve modellen. Onder deze instelling worden de matchinglabels en de rijke diversiteit van de RGB-dataset goed overgenomen door de gegenereerde multimodale gegevens. Hierdoor construeren we MD-syn, een nieuwe uitgebreide dataset die de gegevenskloof vult voor algemene multimodale beeldmatching. Met MD-syn kunnen we direct elk geavanceerd matching-pijplijn trainen op willekeurig geselecteerde modaliteitsparen om cross-modale capaciteit te verkrijgen. Uitgebreide experimenten op in-domein en zero-shot matchingtaken, inclusief 19 cross-modale gevallen, tonen aan dat onze MINIMA aanzienlijk beter presteert dan de baselines en zelfs modality-specifieke methoden overtreft. De dataset en code zijn beschikbaar op https://github.com/LSXI7/MINIMA.
English
Image matching for both cross-view and cross-modality plays a critical role
in multimodal perception. In practice, the modality gap caused by different
imaging systems/styles poses great challenges to the matching task. Existing
works try to extract invariant features for specific modalities and train on
limited datasets, showing poor generalization. In this paper, we present
MINIMA, a unified image matching framework for multiple cross-modal cases.
Without pursuing fancy modules, our MINIMA aims to enhance universal
performance from the perspective of data scaling up. For such purpose, we
propose a simple yet effective data engine that can freely produce a large
dataset containing multiple modalities, rich scenarios, and accurate matching
labels. Specifically, we scale up the modalities from cheap but rich RGB-only
matching data, by means of generative models. Under this setting, the matching
labels and rich diversity of the RGB dataset are well inherited by the
generated multimodal data. Benefiting from this, we construct MD-syn, a new
comprehensive dataset that fills the data gap for general multimodal image
matching. With MD-syn, we can directly train any advanced matching pipeline on
randomly selected modality pairs to obtain cross-modal ability. Extensive
experiments on in-domain and zero-shot matching tasks, including 19
cross-modal cases, demonstrate that our MINIMA can significantly outperform the
baselines and even surpass modality-specific methods. The dataset and code are
available at https://github.com/LSXI7/MINIMA .Summary
AI-Generated Summary