ChatPaper.aiChatPaper

실제 인간 게임 플레이 데이터를 활용한 지리적 위치 추정: 대규모 데이터셋 및 인간 수준의 추론 프레임워크

Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework

February 19, 2025
저자: Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen
cs.AI

초록

지리적 위치 파악(Geolocation)은 이미지의 위치를 식별하는 작업으로, 복잡한 추론을 요구하며 항법, 모니터링, 문화 보존에 있어 핵심적인 역할을 합니다. 그러나 현재의 방법론들은 대체로 대략적이고 부정확하며 해석이 어려운 위치 파악 결과를 내놓는 경우가 많습니다. 주요한 도전 과제 중 하나는 기존 지리적 위치 데이터셋의 품질과 규모에 있습니다. 이러한 데이터셋은 일반적으로 소규모이며 자동으로 구축되어 있어 노이즈가 많고 작업 난이도가 일관적이지 않습니다. 이로 인해 이미지가 너무 쉽게 답을 드러내거나 신뢰할 만한 추론을 위한 충분한 단서가 부족한 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 세 가지 핵심 구성 요소를 갖춘 포괄적인 지리적 위치 파악 프레임워크를 소개합니다: 대규모 데이터셋인 GeoComp, 새로운 추론 방법론인 GeoCoT, 그리고 평가 지표인 GeoEval입니다. 이들은 지리적 위치 연구의 주요 도전 과제를 해결하고 발전을 촉진하기 위해 공동으로 설계되었습니다. 이 프레임워크의 핵심은 GeoComp(Geolocation Competition Dataset)로, 2년 동안 740,000명의 사용자가 참여한 지리적 위치 게임 플랫폼에서 수집된 대규모 데이터셋입니다. 이 데이터셋은 전 세계 대부분을 아우르는 2,500만 개의 메타데이터 항목과 300만 개의 지리적 태그가 달린 위치로 구성되어 있으며, 각 위치는 인간 사용자에 의해 수천에서 수만 번 주석 처리되었습니다. 이 데이터셋은 다양한 난이도를 제공하여 세부적인 분석이 가능하며, 현재 모델들의 주요 격차를 부각시킵니다. 이 데이터셋을 기반으로, 우리는 대형 비전 모델(LVMs)의 지리적 위치 파악 작업에서의 추론 능력을 향상시키기 위해 설계된 새로운 다단계 추론 프레임워크인 지리적 사고의 연쇄(Geographical Chain-of-Thought, GeoCoT)를 제안합니다. GeoCoT는 인간의 지리적 위치 추론을 모방한 다단계 프로세스를 통해 문맥적 및 공간적 단서를 통합하여 성능을 개선합니다. 마지막으로, GeoEval 지표를 사용하여 GeoCoT가 지리적 위치 정확도를 최대 25%까지 크게 향상시키면서 동시에 해석 가능성을 높인다는 것을 입증합니다.
English
Geolocation, the task of identifying an image's location, requires complex reasoning and is crucial for navigation, monitoring, and cultural preservation. However, current methods often produce coarse, imprecise, and non-interpretable localization. A major challenge lies in the quality and scale of existing geolocation datasets. These datasets are typically small-scale and automatically constructed, leading to noisy data and inconsistent task difficulty, with images that either reveal answers too easily or lack sufficient clues for reliable inference. To address these challenges, we introduce a comprehensive geolocation framework with three key components: GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval, an evaluation metric, collectively designed to address critical challenges and drive advancements in geolocation research. At the core of this framework is GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from a geolocation game platform involving 740K users over two years. It comprises 25 million entries of metadata and 3 million geo-tagged locations spanning much of the globe, with each location annotated thousands to tens of thousands of times by human users. The dataset offers diverse difficulty levels for detailed analysis and highlights key gaps in current models. Building on this dataset, we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning framework designed to enhance the reasoning capabilities of Large Vision Models (LVMs) in geolocation tasks. GeoCoT improves performance by integrating contextual and spatial cues through a multi-step process that mimics human geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing interpretability.

Summary

AI-Generated Summary

PDF32February 21, 2025