MatchAnything:大規模事前学習を用いた汎用クロスモダリティ画像マッチング
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training
January 13, 2025
著者: Xingyi He, Hao Yu, Sida Peng, Dongli Tan, Zehong Shen, Hujun Bao, Xiaowei Zhou
cs.AI
要旨
画像マッチングは、画像間の対応するピクセル位置を特定することを目的とし、画像登録、融合、分析など、幅広い科学分野で重要です。近年、深層学習ベースの画像マッチングアルゴリズムは、急速かつ正確に大量の対応を見つける点で人間を大幅に上回っています。ただし、外観の大きな変化をもたらす異なる画像モダリティでキャプチャされた画像を扱う際、これらのアルゴリズムの性能はしばしば劣化します。これは、注釈付きのクロスモーダルトレーニングデータが不足しているためです。この制約は、補完的な情報を得るために複数の画像モダリティに依存するさまざまな分野のアプリケーションを妨げています。この課題に対処するため、我々は、さまざまなソースからの多様なデータを取り入れ、基本的な構造を認識し、画像間で一致させるモデルを訓練するために合成クロスモーダルトレーニング信号を利用する大規模事前トレーニングフレームワークを提案します。この能力は、現実世界で未知のクロスモダリティ画像マッチングタスクに移せます。我々の主な発見は、当該フレームワークで訓練されたマッチングモデルが、同じネットワーク重みを使用して8つ以上の未知のクロスモダリティ登録タスク全体にわたって顕著な汎化性能を発揮し、一般化または特定のタスク向けに設計された既存の手法を大幅に上回ることです。この進歩により、画像マッチング技術の適用範囲が大幅に拡大し、さまざまな科学分野での人間と人工知能のマルチモダリティ分析など、新しいアプリケーションへの道を開くことができます。
English
Image matching, which aims to identify corresponding pixel locations between
images, is crucial in a wide range of scientific disciplines, aiding in image
registration, fusion, and analysis. In recent years, deep learning-based image
matching algorithms have dramatically outperformed humans in rapidly and
accurately finding large amounts of correspondences. However, when dealing with
images captured under different imaging modalities that result in significant
appearance changes, the performance of these algorithms often deteriorates due
to the scarcity of annotated cross-modal training data. This limitation hinders
applications in various fields that rely on multiple image modalities to obtain
complementary information. To address this challenge, we propose a large-scale
pre-training framework that utilizes synthetic cross-modal training signals,
incorporating diverse data from various sources, to train models to recognize
and match fundamental structures across images. This capability is transferable
to real-world, unseen cross-modality image matching tasks. Our key finding is
that the matching model trained with our framework achieves remarkable
generalizability across more than eight unseen cross-modality registration
tasks using the same network weight, substantially outperforming existing
methods, whether designed for generalization or tailored for specific tasks.
This advancement significantly enhances the applicability of image matching
technologies across various scientific disciplines and paves the way for new
applications in multi-modality human and artificial intelligence analysis and
beyond.Summary
AI-Generated Summary