ChatPaper.aiChatPaper

NAVIG: 비전 언어 모델을 활용한 자연어 기반 이미지 지리적 위치 분석

NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

February 20, 2025
저자: Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber
cs.AI

초록

이미지 지리적 위치 추정(Image geo-localization)은 이미지의 구체적인 위치를 예측하는 작업으로, 시각적, 지리적, 문화적 맥락에 걸친 복잡한 추론이 필요합니다. 기존의 비전 언어 모델(Vision Language Models, VLMs)이 이 작업에서 가장 높은 정확도를 보이고 있지만, 분석적 추론을 위한 고품질 데이터셋과 모델이 부족한 실정입니다. 우리는 먼저 인기 있는 지리 게임인 GeoGuessr에서 파생된 고품질 데이터셋인 NaviClues를 구축하여 언어를 통한 전문가 수준의 추론 사례를 제공합니다. 이 데이터셋을 활용하여, 우리는 전역적(global) 및 세부적(fine-grained) 이미지 정보를 통합한 포괄적인 이미지 지리적 위치 추론 프레임워크인 Navig를 제시합니다. 언어를 통한 추론을 통해 Navig는 이전의 최첨단 모델 대비 평균 거리 오차를 14% 줄이면서도 1000개 미만의 학습 샘플만을 요구합니다. 우리의 데이터셋과 코드는 https://github.com/SparrowZheyuan18/Navig/에서 확인할 수 있습니다.
English
Image geo-localization is the task of predicting the specific location of an image and requires complex reasoning across visual, geographical, and cultural contexts. While prior Vision Language Models (VLMs) have the best accuracy at this task, there is a dearth of high-quality datasets and models for analytical reasoning. We first create NaviClues, a high-quality dataset derived from GeoGuessr, a popular geography game, to supply examples of expert reasoning from language. Using this dataset, we present Navig, a comprehensive image geo-localization framework integrating global and fine-grained image information. By reasoning with language, Navig reduces the average distance error by 14% compared to previous state-of-the-art models while requiring fewer than 1000 training samples. Our dataset and code are available at https://github.com/SparrowZheyuan18/Navig/.

Summary

AI-Generated Summary

PDF102February 21, 2025