実世界の人間のゲームプレイデータを用いたジオロケーション:大規模データセットと人間に近い推論フレームワーク
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework
February 19, 2025
著者: Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen
cs.AI
要旨
ジオロケーション(位置特定)は、画像の位置を特定するタスクであり、複雑な推論を必要とし、ナビゲーション、監視、文化保存において極めて重要です。しかし、現在の手法はしばしば大まかで不正確、かつ解釈が困難な位置特定を生み出しています。主な課題は、既存のジオロケーションデータセットの品質と規模にあります。これらのデータセットは通常、小規模で自動的に構築されており、ノイズの多いデータやタスクの難易度の不整合を引き起こし、答えが簡単にわかる画像や、信頼性のある推論に十分な手がかりがない画像が含まれています。これらの課題に対処するため、我々は3つの主要なコンポーネントからなる包括的なジオロケーションフレームワークを提案します。それは、大規模データセットであるGeoComp、新しい推論手法であるGeoCoT、そして評価指標であるGeoEvalであり、これらはジオロケーション研究の重要な課題に対処し、進展を促すために設計されています。このフレームワークの中核となるのは、GeoComp(ジオロケーション競技データセット)です。これは、2年間にわたり74万人のユーザーが参加したジオロケーションゲームプラットフォームから収集された大規模データセットで、2500万件のメタデータと300万件の地理タグ付き位置情報を含み、地球の大部分をカバーしています。各位置は人間のユーザーによって数千から数万回注釈が付けられており、詳細な分析のための多様な難易度を提供し、現在のモデルの重要なギャップを浮き彫りにします。このデータセットを基に、我々はGeographical Chain-of-Thought(GeoCoT)を提案します。これは、大規模視覚モデル(LVM)のジオロケーションタスクにおける推論能力を強化するために設計された、新しい多段階推論フレームワークです。GeoCoTは、人間のジオロケーション推論を模倣する多段階プロセスを通じて、文脈的および空間的手がかりを統合し、性能を向上させます。最後に、GeoEval指標を使用して、GeoCoTがジオロケーションの精度を最大25%向上させるとともに、解釈可能性も高めることを実証します。
English
Geolocation, the task of identifying an image's location, requires complex
reasoning and is crucial for navigation, monitoring, and cultural preservation.
However, current methods often produce coarse, imprecise, and non-interpretable
localization. A major challenge lies in the quality and scale of existing
geolocation datasets. These datasets are typically small-scale and
automatically constructed, leading to noisy data and inconsistent task
difficulty, with images that either reveal answers too easily or lack
sufficient clues for reliable inference. To address these challenges, we
introduce a comprehensive geolocation framework with three key components:
GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval,
an evaluation metric, collectively designed to address critical challenges and
drive advancements in geolocation research. At the core of this framework is
GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from
a geolocation game platform involving 740K users over two years. It comprises
25 million entries of metadata and 3 million geo-tagged locations spanning much
of the globe, with each location annotated thousands to tens of thousands of
times by human users. The dataset offers diverse difficulty levels for detailed
analysis and highlights key gaps in current models. Building on this dataset,
we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning
framework designed to enhance the reasoning capabilities of Large Vision Models
(LVMs) in geolocation tasks. GeoCoT improves performance by integrating
contextual and spatial cues through a multi-step process that mimics human
geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that
GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing
interpretability.Summary
AI-Generated Summary