MatchAnything: Corrispondenza Universale di Immagini tra Modalità Diverse con Pre-Addestramento su Ampia Scala
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training
January 13, 2025
Autori: Xingyi He, Hao Yu, Sida Peng, Dongli Tan, Zehong Shen, Hujun Bao, Xiaowei Zhou
cs.AI
Abstract
Il matching delle immagini, che mira a identificare le corrispondenti posizioni dei pixel tra le immagini, è cruciale in una vasta gamma di discipline scientifiche, aiutando nella registrazione, fusione e analisi delle immagini. Negli ultimi anni, gli algoritmi di matching delle immagini basati sull'apprendimento profondo hanno superato notevolmente gli esseri umani nel trovare rapidamente e con precisione grandi quantità di corrispondenze. Tuttavia, quando si tratta di immagini catturate con diverse modalità di imaging che causano significativi cambiamenti nell'aspetto, le prestazioni di questi algoritmi spesso peggiorano a causa della scarsità di dati di addestramento annotati cross-modal. Questa limitazione ostacola le applicazioni in vari campi che si basano su molteplici modalità di immagine per ottenere informazioni complementari. Per affrontare questa sfida, proponiamo un framework di pre-addestramento su larga scala che utilizza segnali di addestramento sintetici cross-modal, incorporando dati diversi da varie fonti, per addestrare modelli a riconoscere e abbinare strutture fondamentali tra le immagini. Questa capacità è trasferibile a compiti di matching di immagini cross-modal reali e non visti. La nostra scoperta chiave è che il modello di matching addestrato con il nostro framework raggiunge una notevole generalizzabilità su più di otto compiti di registrazione cross-modal non visti utilizzando lo stesso peso della rete, superando notevolmente i metodi esistenti, che siano progettati per la generalizzazione o adattati a compiti specifici. Questo progresso migliora significativamente l'applicabilità delle tecnologie di matching delle immagini in varie discipline scientifiche e apre la strada a nuove applicazioni nell'analisi umana e artificiale multi-modalità e oltre.
English
Image matching, which aims to identify corresponding pixel locations between
images, is crucial in a wide range of scientific disciplines, aiding in image
registration, fusion, and analysis. In recent years, deep learning-based image
matching algorithms have dramatically outperformed humans in rapidly and
accurately finding large amounts of correspondences. However, when dealing with
images captured under different imaging modalities that result in significant
appearance changes, the performance of these algorithms often deteriorates due
to the scarcity of annotated cross-modal training data. This limitation hinders
applications in various fields that rely on multiple image modalities to obtain
complementary information. To address this challenge, we propose a large-scale
pre-training framework that utilizes synthetic cross-modal training signals,
incorporating diverse data from various sources, to train models to recognize
and match fundamental structures across images. This capability is transferable
to real-world, unseen cross-modality image matching tasks. Our key finding is
that the matching model trained with our framework achieves remarkable
generalizability across more than eight unseen cross-modality registration
tasks using the same network weight, substantially outperforming existing
methods, whether designed for generalization or tailored for specific tasks.
This advancement significantly enhances the applicability of image matching
technologies across various scientific disciplines and paves the way for new
applications in multi-modality human and artificial intelligence analysis and
beyond.Summary
AI-Generated Summary