МИНИМА: Сопоставление изображений, инвариантное к модальности
MINIMA: Modality Invariant Image Matching
December 27, 2024
Авторы: Xingyu Jiang, Jiangwei Ren, Zizhuo Li, Xin Zhou, Dingkang Liang, Xiang Bai
cs.AI
Аннотация
Сопоставление изображений как для перекрестного представления, так и для перекрестной модальности играет критическую роль в мультимодальном восприятии. На практике разрыв модальности, вызванный различными системами/стилями изображения, представляет собой большие вызовы для задачи сопоставления. Существующие работы пытаются извлечь инвариантные особенности для конкретных модальностей и обучаться на ограниченных наборах данных, что приводит к плохой обобщаемости. В данной статье мы представляем MINIMA, унифицированную структуру сопоставления изображений для нескольких перекрестных модальных случаев. Не стремясь к сложным модулям, наш MINIMA нацелен на улучшение универсальной производительности с точки зрения масштабирования данных. Для этой цели мы предлагаем простой, но эффективный движок данных, который может свободно создавать большой набор данных, содержащий несколько модальностей, разнообразные сценарии и точные метки сопоставления. В частности, мы масштабируем модальности от дешевых, но богатых только RGB данных для сопоставления, с помощью генеративных моделей. В этой установке метки сопоставления и богатое разнообразие набора данных RGB хорошо наследуются сгенерированными мультимодальными данными. Благодаря этому мы создаем MD-syn, новый всесторонний набор данных, который заполняет пробел данных для общего сопоставления мультимодальных изображений. С помощью MD-syn мы можем напрямую обучать любую передовую конвейерную систему сопоставления на случайно выбранных парах модальностей для получения перекрестной модальной способности. Обширные эксперименты на задачах сопоставления внутри домена и нулевых совпадений, включая 19 перекрестных модальных случаев, демонстрируют, что наш MINIMA значительно превосходит базовые показатели и даже превосходит методы, специфичные для модальности. Набор данных и код доступны по адресу https://github.com/LSXI7/MINIMA.
English
Image matching for both cross-view and cross-modality plays a critical role
in multimodal perception. In practice, the modality gap caused by different
imaging systems/styles poses great challenges to the matching task. Existing
works try to extract invariant features for specific modalities and train on
limited datasets, showing poor generalization. In this paper, we present
MINIMA, a unified image matching framework for multiple cross-modal cases.
Without pursuing fancy modules, our MINIMA aims to enhance universal
performance from the perspective of data scaling up. For such purpose, we
propose a simple yet effective data engine that can freely produce a large
dataset containing multiple modalities, rich scenarios, and accurate matching
labels. Specifically, we scale up the modalities from cheap but rich RGB-only
matching data, by means of generative models. Under this setting, the matching
labels and rich diversity of the RGB dataset are well inherited by the
generated multimodal data. Benefiting from this, we construct MD-syn, a new
comprehensive dataset that fills the data gap for general multimodal image
matching. With MD-syn, we can directly train any advanced matching pipeline on
randomly selected modality pairs to obtain cross-modal ability. Extensive
experiments on in-domain and zero-shot matching tasks, including 19
cross-modal cases, demonstrate that our MINIMA can significantly outperform the
baselines and even surpass modality-specific methods. The dataset and code are
available at https://github.com/LSXI7/MINIMA .Summary
AI-Generated Summary