ChatPaper.aiChatPaper

MatchAnything: 대규모 사전 훈련을 통한 범용 교차 모달리티 이미지 매칭

MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

January 13, 2025
저자: Xingyi He, Hao Yu, Sida Peng, Dongli Tan, Zehong Shen, Hujun Bao, Xiaowei Zhou
cs.AI

초록

이미지 매칭은 이미지 간에 해당하는 픽셀 위치를 식별하는 것을 목표로 하며, 이미지 등록, 퓨전 및 분석에 도움이 되어 다양한 과학 분야에서 중요합니다. 최근 몇 년 동안, 딥러닝 기반 이미지 매칭 알고리즘은 대량의 대응을 신속하고 정확하게 찾는 데에서 인간을 크게 능가했습니다. 그러나 상이한 이미징 모달리티에서 촬영된 이미지를 처리할 때, 외관 변화가 큰 양상을 보이는 경우, 이러한 알고리즘의 성능이 종종 저하됩니다. 이는 교차 모달리티 훈련 데이터가 부족하기 때문입니다. 이 제한은 여러 이미지 모달리티에 의존하여 보완적 정보를 얻는 다양한 분야의 응용 프로그램을 방해합니다. 이러한 도전에 대처하기 위해, 우리는 다양한 소스에서 다양한 데이터를 통합하여 합성 교차 모달리티 훈련 신호를 활용하는 대규모 사전 훈련 프레임워크를 제안합니다. 이를 통해 모델을 훈련하여 이미지 간의 기본 구조를 인식하고 매칭시키는 능력을 갖추게 합니다. 이 능력은 실제 세계에서 보이지 않는 교차 모달리티 이미지 매칭 작업으로 전이 가능합니다. 우리의 주요 발견은 이 프레임워크로 훈련된 매칭 모델이 동일한 네트워크 가중치를 사용하여 여덟 개 이상의 보이지 않는 교차 모달리티 등록 작업에 걸쳐 현저한 일반화 능력을 달성한다는 것입니다. 기존 방법을 크게 능가하며, 일반화를 위해 설계되었든 특정 작업에 맞춰진 것이든 상관없이 결과가 나옵니다. 이 발전은 이미지 매칭 기술의 적용 가능성을 크게 향상시키고 다양한 과학 분야에서의 새로운 응용 프로그램을 열어줍니다.
English
Image matching, which aims to identify corresponding pixel locations between images, is crucial in a wide range of scientific disciplines, aiding in image registration, fusion, and analysis. In recent years, deep learning-based image matching algorithms have dramatically outperformed humans in rapidly and accurately finding large amounts of correspondences. However, when dealing with images captured under different imaging modalities that result in significant appearance changes, the performance of these algorithms often deteriorates due to the scarcity of annotated cross-modal training data. This limitation hinders applications in various fields that rely on multiple image modalities to obtain complementary information. To address this challenge, we propose a large-scale pre-training framework that utilizes synthetic cross-modal training signals, incorporating diverse data from various sources, to train models to recognize and match fundamental structures across images. This capability is transferable to real-world, unseen cross-modality image matching tasks. Our key finding is that the matching model trained with our framework achieves remarkable generalizability across more than eight unseen cross-modality registration tasks using the same network weight, substantially outperforming existing methods, whether designed for generalization or tailored for specific tasks. This advancement significantly enhances the applicability of image matching technologies across various scientific disciplines and paves the way for new applications in multi-modality human and artificial intelligence analysis and beyond.

Summary

AI-Generated Summary

PDF53January 15, 2025