ChatPaper.aiChatPaper

최소값: 모달리티 불변 이미지 매칭

MINIMA: Modality Invariant Image Matching

December 27, 2024
저자: Xingyu Jiang, Jiangwei Ren, Zizhuo Li, Xin Zhou, Dingkang Liang, Xiang Bai
cs.AI

초록

교차 뷰 및 교차 모달리티에 대한 이미지 매칭은 다중 모달 인식에서 중요한 역할을 합니다. 실제로, 서로 다른 이미징 시스템/스타일에 의해 야기된 모달리티 갭은 매칭 작업에 큰 어려움을 줍니다. 기존 연구들은 특정 모달리티에 대한 불변 특징을 추출하고 제한된 데이터셋에서 훈련하여 일반화 성능이 낮다는 것을 보여줍니다. 본 논문에서는 여러 교차 모달 케이스에 대한 통합 이미지 매칭 프레임워크인 MINIMA를 제안합니다. 저희 MINIMA는 화려한 모듈을 추구하는 대신 데이터 확장 관점에서 범용 성능을 향상시키고자 합니다. 이를 위해 여러 모달리티, 다양한 시나리오 및 정확한 매칭 레이블이 포함된 대규모 데이터셋을 자유롭게 생성할 수 있는 간단하면서도 효과적인 데이터 엔진을 제안합니다. 구체적으로, 우리는 저렴하지만 풍부한 RGB만을 사용한 매칭 데이터를 생성 모델을 통해 모달리티를 확장합니다. 이 설정에서 매칭 레이블과 RGB 데이터셋의 다양성이 생성된 다중 모달 데이터에 잘 전달됩니다. 이를 통해 우리는 일반적인 다중 모달 이미지 매칭을 위한 데이터 갭을 메우는 새로운 포괄적인 MD-syn 데이터셋을 구축합니다. MD-syn을 사용하면 임의로 선택된 모달리티 쌍에 대해 곧바로 고급 매칭 파이프라인을 훈련하여 교차 모달 능력을 얻을 수 있습니다. 19가지 교차 모달 케이스를 포함한 도메인 내 및 제로샷 매칭 작업에 대한 광범위한 실험 결과는 우리 MINIMA가 기준선을 크게 능가하고 모달리티별 방법을 뛰어넘는다는 것을 보여줍니다. 데이터셋과 코드는 https://github.com/LSXI7/MINIMA 에서 제공됩니다.
English
Image matching for both cross-view and cross-modality plays a critical role in multimodal perception. In practice, the modality gap caused by different imaging systems/styles poses great challenges to the matching task. Existing works try to extract invariant features for specific modalities and train on limited datasets, showing poor generalization. In this paper, we present MINIMA, a unified image matching framework for multiple cross-modal cases. Without pursuing fancy modules, our MINIMA aims to enhance universal performance from the perspective of data scaling up. For such purpose, we propose a simple yet effective data engine that can freely produce a large dataset containing multiple modalities, rich scenarios, and accurate matching labels. Specifically, we scale up the modalities from cheap but rich RGB-only matching data, by means of generative models. Under this setting, the matching labels and rich diversity of the RGB dataset are well inherited by the generated multimodal data. Benefiting from this, we construct MD-syn, a new comprehensive dataset that fills the data gap for general multimodal image matching. With MD-syn, we can directly train any advanced matching pipeline on randomly selected modality pairs to obtain cross-modal ability. Extensive experiments on in-domain and zero-shot matching tasks, including 19 cross-modal cases, demonstrate that our MINIMA can significantly outperform the baselines and even surpass modality-specific methods. The dataset and code are available at https://github.com/LSXI7/MINIMA .

Summary

AI-Generated Summary

PDF42January 16, 2025