ChatPaper.aiChatPaper

MapEval: 기초 모델에서 지리 공간 추론의 지도 기반 평가

MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models

December 31, 2024
저자: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
cs.AI

초록

최근 기초 모델의 발전으로 AI 시스템은 자율 도구 사용 및 추론 능력이 향상되었습니다. 그러나 일상 생활을 최적화하고 내비게이션을 향상시키며 자원 발견을 용이하게 하고 물류를 최적화함으로써 삶을 향상시키는 위치 또는 지도 기반 추론 능력은 체계적으로 연구되지 않았습니다. 이 간극을 메우기 위해 우리는 지리-공간 추론을 통해 다양하고 복잡한 지도 기반 사용자 쿼리를 평가하기 위해 설계된 벤치마크인 MapEval을 소개합니다. MapEval은 지도 도구를 통해 세계 정보를 수집하고 이질적인 지리-공간 맥락(예: 명명된 개체, 여행 거리, 사용자 리뷰 또는 평가, 이미지)를 처리하며 모든 최첨단 기초 모델이 어려워하는 합성 추론을 요구하는 세 가지 유형의 작업(텍스트, API 기반, 시각)을 특징으로 합니다. 180개 도시와 54개 국가에 걸쳐 위치에 대한 700개의 독특한 객관식 질문으로 구성된 MapEval은 기초 모델이 공간 관계, 지도 정보 그래픽, 여행 계획 및 내비게이션 과제를 처리하는 능력을 평가합니다. MapEval을 사용하여 우리는 28가지 주요 기초 모델을 철저히 평가했습니다. 모든 작업에서 뛰어난 성과를 거둔 단일 모델은 없었지만 Claude-3.5-Sonnet, GPT-4o 및 Gemini-1.5-Pro이 전반적으로 경쟁력 있는 성과를 달성했습니다. 그러나 특히 MapEval에서 상당한 성능 차이가 드러났으며, Claude-3.5-Sonnet을 사용한 에이전트는 GPT-4o 및 Gemini-1.5-Pro보다 각각 16% 및 21% 우수한 성과를 보였으며, 오픈 소스 LLM과 비교했을 때 차이가 더 커졌습니다. 우리의 상세한 분석은 현재 모델의 강점과 약점에 대한 통찰을 제공하지만 모든 모델은 여전히 복잡한 지도 이미지와 엄격한 지리-공간 추론에 어려움을 겪으며 인간의 성능을 평균 20% 이상 초과하는 부분에서 모두 부족함이 드러납니다. 이 간극은 MapEval이 일반적인 목적의 기초 모델을 강화시키는 데 중요한 역할을 한다는 점을 강조합니다.
English
Recent advancements in foundation models have enhanced AI systems' capabilities in autonomous tool usage and reasoning. However, their ability in location or map-based reasoning - which improves daily life by optimizing navigation, facilitating resource discovery, and streamlining logistics - has not been systematically studied. To bridge this gap, we introduce MapEval, a benchmark designed to assess diverse and complex map-based user queries with geo-spatial reasoning. MapEval features three task types (textual, API-based, and visual) that require collecting world information via map tools, processing heterogeneous geo-spatial contexts (e.g., named entities, travel distances, user reviews or ratings, images), and compositional reasoning, which all state-of-the-art foundation models find challenging. Comprising 700 unique multiple-choice questions about locations across 180 cities and 54 countries, MapEval evaluates foundation models' ability to handle spatial relationships, map infographics, travel planning, and navigation challenges. Using MapEval, we conducted a comprehensive evaluation of 28 prominent foundation models. While no single model excelled across all tasks, Claude-3.5-Sonnet, GPT-4o, and Gemini-1.5-Pro achieved competitive performance overall. However, substantial performance gaps emerged, particularly in MapEval, where agents with Claude-3.5-Sonnet outperformed GPT-4o and Gemini-1.5-Pro by 16% and 21%, respectively, and the gaps became even more amplified when compared to open-source LLMs. Our detailed analyses provide insights into the strengths and weaknesses of current models, though all models still fall short of human performance by more than 20% on average, struggling with complex map images and rigorous geo-spatial reasoning. This gap highlights MapEval's critical role in advancing general-purpose foundation models with stronger geo-spatial understanding.

Summary

AI-Generated Summary

PDF222January 3, 2025