MatchAnything: Corrispondenza Universale di Immagini tra Modalità Diverse con Pre-Addestramento su Ampia Scala

Abstract

Il matching delle immagini, che mira a identificare le corrispondenti posizioni dei pixel tra le immagini, è cruciale in una vasta gamma di discipline scientifiche, aiutando nella registrazione, fusione e analisi delle immagini. Negli ultimi anni, gli algoritmi di matching delle immagini basati sull'apprendimento profondo hanno superato notevolmente gli esseri umani nel trovare rapidamente e con precisione grandi quantità di corrispondenze. Tuttavia, quando si tratta di immagini catturate con diverse modalità di imaging che causano significativi cambiamenti nell'aspetto, le prestazioni di questi algoritmi spesso peggiorano a causa della scarsità di dati di addestramento annotati cross-modal. Questa limitazione ostacola le applicazioni in vari campi che si basano su molteplici modalità di immagine per ottenere informazioni complementari. Per affrontare questa sfida, proponiamo un framework di pre-addestramento su larga scala che utilizza segnali di addestramento sintetici cross-modal, incorporando dati diversi da varie fonti, per addestrare modelli a riconoscere e abbinare strutture fondamentali tra le immagini. Questa capacità è trasferibile a compiti di matching di immagini cross-modal reali e non visti. La nostra scoperta chiave è che il modello di matching addestrato con il nostro framework raggiunge una notevole generalizzabilità su più di otto compiti di registrazione cross-modal non visti utilizzando lo stesso peso della rete, superando notevolmente i metodi esistenti, che siano progettati per la generalizzazione o adattati a compiti specifici. Questo progresso migliora significativamente l'applicabilità delle tecnologie di matching delle immagini in varie discipline scientifiche e apre la strada a nuove applicazioni nell'analisi umana e artificiale multi-modalità e oltre.

English

Image matching, which aims to identify corresponding pixel locations between images, is crucial in a wide range of scientific disciplines, aiding in image registration, fusion, and analysis. In recent years, deep learning-based image matching algorithms have dramatically outperformed humans in rapidly and accurately finding large amounts of correspondences. However, when dealing with images captured under different imaging modalities that result in significant appearance changes, the performance of these algorithms often deteriorates due to the scarcity of annotated cross-modal training data. This limitation hinders applications in various fields that rely on multiple image modalities to obtain complementary information. To address this challenge, we propose a large-scale pre-training framework that utilizes synthetic cross-modal training signals, incorporating diverse data from various sources, to train models to recognize and match fundamental structures across images. This capability is transferable to real-world, unseen cross-modality image matching tasks. Our key finding is that the matching model trained with our framework achieves remarkable generalizability across more than eight unseen cross-modality registration tasks using the same network weight, substantially outperforming existing methods, whether designed for generalization or tailored for specific tasks. This advancement significantly enhances the applicability of image matching technologies across various scientific disciplines and paves the way for new applications in multi-modality human and artificial intelligence analysis and beyond.

MatchAnything: Corrispondenza Universale di Immagini tra Modalità Diverse con Pre-Addestramento su Ampia Scala

MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

Abstract

Summary

Support