In giro per il mondo in 80 passaggi temporali: Un approccio generativo alla geolocalizzazione visiva globale
Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation
December 9, 2024
Autori: Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu
cs.AI
Abstract
La geolocalizzazione visiva globale predice dove un'immagine è stata catturata sulla Terra. Poiché le immagini variano nella precisione con cui possono essere localizzate, questo compito comporta intrinsecamente un notevole grado di ambiguità. Tuttavia, gli approcci esistenti sono deterministici e trascurano questo aspetto. In questo articolo, miriamo a colmare il divario tra la geolocalizzazione tradizionale e i moderni metodi generativi. Proponiamo il primo approccio generativo alla geolocalizzazione basato sulla diffusione e sul matching del flusso Riemanniano, dove il processo di denoising opera direttamente sulla superficie terrestre. Il nostro modello raggiunge prestazioni all'avanguardia su tre benchmark di geolocalizzazione visiva: OpenStreetView-5M, YFCC-100M e iNat21. Inoltre, introduciamo il compito di geolocalizzazione visiva probabilistica, dove il modello predice una distribuzione di probabilità su tutte le possibili posizioni anziché un singolo punto. Presentiamo nuove metriche e basi di confronto per questo compito, dimostrando i vantaggi del nostro approccio basato sulla diffusione. Codici e modelli saranno resi disponibili.
English
Global visual geolocation predicts where an image was captured on Earth.
Since images vary in how precisely they can be localized, this task inherently
involves a significant degree of ambiguity. However, existing approaches are
deterministic and overlook this aspect. In this paper, we aim to close the gap
between traditional geolocalization and modern generative methods. We propose
the first generative geolocation approach based on diffusion and Riemannian
flow matching, where the denoising process operates directly on the Earth's
surface. Our model achieves state-of-the-art performance on three visual
geolocation benchmarks: OpenStreetView-5M, YFCC-100M, and iNat21. In addition,
we introduce the task of probabilistic visual geolocation, where the model
predicts a probability distribution over all possible locations instead of a
single point. We introduce new metrics and baselines for this task,
demonstrating the advantages of our diffusion-based approach. Codes and models
will be made available.Summary
AI-Generated Summary