MapEval: Uma Avaliação Baseada em Mapa do Raciocínio Geo-Espacial em Modelos Fundamentais
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models
December 31, 2024
Autores: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
cs.AI
Resumo
Os avanços recentes em modelos fundamentais aprimoraram as capacidades dos sistemas de IA no uso autônomo de ferramentas e raciocínio. No entanto, sua capacidade em raciocínio baseado em localização ou mapas - que melhora a vida diária otimizando a navegação, facilitando a descoberta de recursos e simplificando a logística - não foi estudada de forma sistemática. Para preencher essa lacuna, apresentamos o MapEval, um benchmark projetado para avaliar consultas de usuários diversificadas e complexas baseadas em mapas com raciocínio geoespacial. O MapEval apresenta três tipos de tarefas (textual, baseado em API e visual) que exigem coletar informações mundiais por meio de ferramentas de mapas, processar contextos geoespaciais heterogêneos (por exemplo, entidades nomeadas, distâncias de viagem, avaliações ou classificações de usuários, imagens) e raciocínio composicional, que todos os modelos fundamentais de ponta consideram desafiadores. Composto por 700 perguntas de múltipla escolha únicas sobre locais em 180 cidades e 54 países, o MapEval avalia a capacidade dos modelos fundamentais de lidar com relacionamentos espaciais, infográficos de mapas, planejamento de viagens e desafios de navegação. Usando o MapEval, realizamos uma avaliação abrangente de 28 modelos fundamentais proeminentes. Embora nenhum modelo único tenha se destacado em todas as tarefas, Claude-3.5-Sonnet, GPT-4o e Gemini-1.5-Pro alcançaram um desempenho competitivo global. No entanto, lacunas significativas de desempenho surgiram, especialmente no MapEval, onde os agentes com Claude-3.5-Sonnet superaram GPT-4o e Gemini-1.5-Pro em 16% e 21%, respectivamente, e as lacunas se tornaram ainda mais ampliadas quando comparadas aos LLMs de código aberto. Nossas análises detalhadas fornecem insights sobre os pontos fortes e fracos dos modelos atuais, embora todos os modelos ainda fiquem aquém do desempenho humano em mais de 20% em média, enfrentando dificuldades com imagens de mapas complexos e raciocínio geoespacial rigoroso. Essa lacuna destaca o papel crítico do MapEval no avanço de modelos fundamentais de propósito geral com um entendimento geoespacial mais sólido.
English
Recent advancements in foundation models have enhanced AI systems'
capabilities in autonomous tool usage and reasoning. However, their ability in
location or map-based reasoning - which improves daily life by optimizing
navigation, facilitating resource discovery, and streamlining logistics - has
not been systematically studied. To bridge this gap, we introduce MapEval, a
benchmark designed to assess diverse and complex map-based user queries with
geo-spatial reasoning. MapEval features three task types (textual, API-based,
and visual) that require collecting world information via map tools, processing
heterogeneous geo-spatial contexts (e.g., named entities, travel distances,
user reviews or ratings, images), and compositional reasoning, which all
state-of-the-art foundation models find challenging. Comprising 700 unique
multiple-choice questions about locations across 180 cities and 54 countries,
MapEval evaluates foundation models' ability to handle spatial relationships,
map infographics, travel planning, and navigation challenges. Using MapEval, we
conducted a comprehensive evaluation of 28 prominent foundation models. While
no single model excelled across all tasks, Claude-3.5-Sonnet, GPT-4o, and
Gemini-1.5-Pro achieved competitive performance overall. However, substantial
performance gaps emerged, particularly in MapEval, where agents with
Claude-3.5-Sonnet outperformed GPT-4o and Gemini-1.5-Pro by 16% and 21%,
respectively, and the gaps became even more amplified when compared to
open-source LLMs. Our detailed analyses provide insights into the strengths and
weaknesses of current models, though all models still fall short of human
performance by more than 20% on average, struggling with complex map images and
rigorous geo-spatial reasoning. This gap highlights MapEval's critical role in
advancing general-purpose foundation models with stronger geo-spatial
understanding.Summary
AI-Generated Summary