MINIMA: モダリティ不変画像マッチング
MINIMA: Modality Invariant Image Matching
December 27, 2024
著者: Xingyu Jiang, Jiangwei Ren, Zizhuo Li, Xin Zhou, Dingkang Liang, Xiang Bai
cs.AI
要旨
クロスビューおよびクロスモダリティの両方に対する画像マッチングは、マルチモーダル知覚において重要な役割を果たします。実践上、異なる画像システム/スタイルによって引き起こされるモダリティ間のギャップは、マッチングタスクに大きな挑戦をもたらします。既存の研究は、特定のモダリティ用に不変の特徴を抽出し、限られたデータセットでトレーニングすることで、一般化性の低さを示しています。本論文では、複数のクロスモーダルケースに対する統一された画像マッチングフレームワークであるMINIMAを提案します。当MINIMAは、派手なモジュールを追求するのではなく、データスケーリングの観点から普遍的なパフォーマンスを向上させることを目指しています。このために、複数のモダリティ、豊富なシナリオ、正確なマッチングラベルを含む大規模なデータセットを自由に生成できるシンプルかつ効果的なデータエンジンを提案します。具体的には、生成モデルを用いて、安価で豊富なRGBのみのマッチングデータからモダリティをスケーリングアップします。この設定の下で、マッチングラベルとRGBデータセットの豊富な多様性が生成されたマルチモーダルデータによってよく継承されます。これにより、一般的なマルチモーダル画像マッチングのデータギャップを埋める新しい包括的データセットであるMD-synを構築します。MD-synを使用することで、任意の高度なマッチングパイプラインをランダムに選択されたモダリティペアで直接トレーニングし、クロスモーダル能力を獲得できます。19のクロスモーダルケースを含むインドメインおよびゼロショットマッチングタスクに対する幅広い実験は、当MINIMAがベースラインを大幅に上回り、モダリティ固有の方法さえも凌駕できることを示しています。データセットとコードは、https://github.com/LSXI7/MINIMA で入手可能です。
English
Image matching for both cross-view and cross-modality plays a critical role
in multimodal perception. In practice, the modality gap caused by different
imaging systems/styles poses great challenges to the matching task. Existing
works try to extract invariant features for specific modalities and train on
limited datasets, showing poor generalization. In this paper, we present
MINIMA, a unified image matching framework for multiple cross-modal cases.
Without pursuing fancy modules, our MINIMA aims to enhance universal
performance from the perspective of data scaling up. For such purpose, we
propose a simple yet effective data engine that can freely produce a large
dataset containing multiple modalities, rich scenarios, and accurate matching
labels. Specifically, we scale up the modalities from cheap but rich RGB-only
matching data, by means of generative models. Under this setting, the matching
labels and rich diversity of the RGB dataset are well inherited by the
generated multimodal data. Benefiting from this, we construct MD-syn, a new
comprehensive dataset that fills the data gap for general multimodal image
matching. With MD-syn, we can directly train any advanced matching pipeline on
randomly selected modality pairs to obtain cross-modal ability. Extensive
experiments on in-domain and zero-shot matching tasks, including 19
cross-modal cases, demonstrate that our MINIMA can significantly outperform the
baselines and even surpass modality-specific methods. The dataset and code are
available at https://github.com/LSXI7/MINIMA .Summary
AI-Generated Summary