ChatPaper.aiChatPaper

80개의 타임스텝 안에 세계 일주하기: 전역 시각 지리 위치 결정에 대한 생성적 접근

Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

December 9, 2024
저자: Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu
cs.AI

초록

글로벌 시각 지올로케이션은 이미지가 지구상에서 어디에서 촬영되었는지를 예측합니다. 이미지는 정확도가 다양하기 때문에, 이 작업은 본질적으로 상당한 정도의 모호함을 포함합니다. 그러나 기존 접근 방식은 결정론적이며 이 측면을 간과합니다. 본 논문에서는 전통적인 지올로케이션과 현대적인 생성 방법 사이의 간격을 줄이고자 합니다. 확산과 리만 흐름 일치를 기반으로 하는 최초의 생성적 지올로케이션 접근 방식을 제안합니다. 여기서 노이즈 제거 과정은 지구 표면 상에서 직접 작동합니다. 우리의 모델은 세 가지 시각 지올로케이션 벤치마크인 OpenStreetView-5M, YFCC-100M 및 iNat21에서 최첨단 성능을 달성합니다. 또한, 모델이 단일 지점이 아닌 모든 가능한 위치에 대한 확률 분포를 예측하는 확률적 시각 지올로케이션 작업을 소개합니다. 이 작업을 위한 새로운 메트릭 및 베이스라인을 소개하며, 우리의 확산 기반 접근 방식의 장점을 보여줍니다. 코드와 모델은 공개될 예정입니다.
English
Global visual geolocation predicts where an image was captured on Earth. Since images vary in how precisely they can be localized, this task inherently involves a significant degree of ambiguity. However, existing approaches are deterministic and overlook this aspect. In this paper, we aim to close the gap between traditional geolocalization and modern generative methods. We propose the first generative geolocation approach based on diffusion and Riemannian flow matching, where the denoising process operates directly on the Earth's surface. Our model achieves state-of-the-art performance on three visual geolocation benchmarks: OpenStreetView-5M, YFCC-100M, and iNat21. In addition, we introduce the task of probabilistic visual geolocation, where the model predicts a probability distribution over all possible locations instead of a single point. We introduce new metrics and baselines for this task, demonstrating the advantages of our diffusion-based approach. Codes and models will be made available.

Summary

AI-Generated Summary

PDF212December 10, 2024