MINIMA: Modalitätsinvariante Bildübereinstimmung
MINIMA: Modality Invariant Image Matching
December 27, 2024
Autoren: Xingyu Jiang, Jiangwei Ren, Zizhuo Li, Xin Zhou, Dingkang Liang, Xiang Bai
cs.AI
Zusammenfassung
Die Bildübereinstimmung sowohl für Cross-View als auch für Cross-Modality spielt eine entscheidende Rolle bei der multimodalen Wahrnehmung. In der Praxis stellt die Modalitätslücke, die durch unterschiedliche Bildgebungssysteme/-stile verursacht wird, große Herausforderungen für die Übereinstimmungsaufgabe dar. Bestehende Arbeiten versuchen, invariante Merkmale für spezifische Modalitäten zu extrahieren und auf begrenzten Datensätzen zu trainieren, was eine schlechte Verallgemeinerung zeigt. In diesem Artikel stellen wir MINIMA vor, ein einheitliches Bildübereinstimmungs-Framework für mehrere Cross-Modal-Fälle. Ohne aufwendige Module zu verfolgen, zielt unser MINIMA darauf ab, die universelle Leistung aus der Perspektive der Datenvergrößerung zu verbessern. Zu diesem Zweck schlagen wir eine einfache, aber effektive Daten-Engine vor, die einen großen Datensatz mit mehreren Modalitäten, reichen Szenarien und genauen Übereinstimmungslabels frei erstellen kann. Speziell skalieren wir die Modalitäten von günstigen, aber reichen RGB-only Übereinstimmungsdaten mittels generativer Modelle hoch. Unter dieser Konfiguration werden die Übereinstimmungslabels und die reiche Vielfalt des RGB-Datensatzes von den generierten multimodalen Daten gut übernommen. Davon profitierend konstruieren wir MD-syn, einen neuen umfassenden Datensatz, der die Datenlücke für die allgemeine multimodale Bildübereinstimmung schließt. Mit MD-syn können wir direkt jedes fortgeschrittene Übereinstimmungs-Pipeline auf zufällig ausgewählten Modalitätspaaren trainieren, um die Cross-Modal-Fähigkeit zu erlangen. Umfangreiche Experimente zu In-Domain- und Zero-Shot-Übereinstimmungsaufgaben, einschließlich 19 Cross-Modal-Fällen, zeigen, dass unser MINIMA signifikant besser abschneiden kann als die Baselines und sogar modalitätsspezifische Methoden übertreffen kann. Der Datensatz und der Code sind verfügbar unter https://github.com/LSXI7/MINIMA.
English
Image matching for both cross-view and cross-modality plays a critical role
in multimodal perception. In practice, the modality gap caused by different
imaging systems/styles poses great challenges to the matching task. Existing
works try to extract invariant features for specific modalities and train on
limited datasets, showing poor generalization. In this paper, we present
MINIMA, a unified image matching framework for multiple cross-modal cases.
Without pursuing fancy modules, our MINIMA aims to enhance universal
performance from the perspective of data scaling up. For such purpose, we
propose a simple yet effective data engine that can freely produce a large
dataset containing multiple modalities, rich scenarios, and accurate matching
labels. Specifically, we scale up the modalities from cheap but rich RGB-only
matching data, by means of generative models. Under this setting, the matching
labels and rich diversity of the RGB dataset are well inherited by the
generated multimodal data. Benefiting from this, we construct MD-syn, a new
comprehensive dataset that fills the data gap for general multimodal image
matching. With MD-syn, we can directly train any advanced matching pipeline on
randomly selected modality pairs to obtain cross-modal ability. Extensive
experiments on in-domain and zero-shot matching tasks, including 19
cross-modal cases, demonstrate that our MINIMA can significantly outperform the
baselines and even surpass modality-specific methods. The dataset and code are
available at https://github.com/LSXI7/MINIMA .Summary
AI-Generated Summary