MapEval: Una valutazione basata su mappe del ragionamento geospaziale nei modelli di base
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models
December 31, 2024
Autori: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
cs.AI
Abstract
I recenti progressi nei modelli fondamentali hanno potenziato le capacità dei sistemi di intelligenza artificiale nell'uso autonomo degli strumenti e nel ragionamento. Tuttavia, la loro capacità nel ragionamento basato sulla posizione o sulla mappa - che migliora la vita quotidiana ottimizzando la navigazione, agevolando la scoperta delle risorse e razionalizzando la logistica - non è stata studiata in modo sistematico. Per colmare questa lacuna, presentiamo MapEval, un benchmark progettato per valutare diverse e complesse interrogazioni degli utenti basate sulla mappa con ragionamento geospaziale. MapEval presenta tre tipi di compiti (testuali, basati su API e visivi) che richiedono la raccolta di informazioni globali tramite strumenti cartografici, l'elaborazione di contesti geospaziali eterogenei (ad esempio, entità nominate, distanze di viaggio, recensioni o valutazioni degli utenti, immagini) e il ragionamento compositivo, che tutti i modelli fondamentali all'avanguardia trovano impegnativo. Comprendente 700 domande a scelta multipla uniche su posizioni in 180 città e 54 paesi, MapEval valuta la capacità dei modelli fondamentali di gestire relazioni spaziali, infografiche cartografiche, pianificazione dei viaggi e sfide alla navigazione. Utilizzando MapEval, abbiamo condotto una valutazione completa di 28 modelli fondamentali di spicco. Sebbene nessun singolo modello eccellesse in tutti i compiti, Claude-3.5-Sonnet, GPT-4o e Gemini-1.5-Pro hanno ottenuto prestazioni competitive complessive. Tuttavia, sono emersi significativi divari di prestazioni, in particolare in MapEval, dove gli agenti con Claude-3.5-Sonnet hanno superato GPT-4o e Gemini-1.5-Pro rispettivamente del 16% e del 21%, e i divari sono diventati ancora più amplificati se confrontati con LLM open-source. Le nostre analisi dettagliate forniscono approfondimenti sui punti di forza e di debolezza dei modelli attuali, anche se tutti i modelli continuano a rimanere al di sotto delle prestazioni umane di oltre il 20% in media, avendo difficoltà con immagini cartografiche complesse e ragionamenti geospaziali rigorosi. Questa lacuna sottolinea il ruolo critico di MapEval nell'avanzamento dei modelli fondamentali ad uso generale con una maggiore comprensione geospaziale.
English
Recent advancements in foundation models have enhanced AI systems'
capabilities in autonomous tool usage and reasoning. However, their ability in
location or map-based reasoning - which improves daily life by optimizing
navigation, facilitating resource discovery, and streamlining logistics - has
not been systematically studied. To bridge this gap, we introduce MapEval, a
benchmark designed to assess diverse and complex map-based user queries with
geo-spatial reasoning. MapEval features three task types (textual, API-based,
and visual) that require collecting world information via map tools, processing
heterogeneous geo-spatial contexts (e.g., named entities, travel distances,
user reviews or ratings, images), and compositional reasoning, which all
state-of-the-art foundation models find challenging. Comprising 700 unique
multiple-choice questions about locations across 180 cities and 54 countries,
MapEval evaluates foundation models' ability to handle spatial relationships,
map infographics, travel planning, and navigation challenges. Using MapEval, we
conducted a comprehensive evaluation of 28 prominent foundation models. While
no single model excelled across all tasks, Claude-3.5-Sonnet, GPT-4o, and
Gemini-1.5-Pro achieved competitive performance overall. However, substantial
performance gaps emerged, particularly in MapEval, where agents with
Claude-3.5-Sonnet outperformed GPT-4o and Gemini-1.5-Pro by 16% and 21%,
respectively, and the gaps became even more amplified when compared to
open-source LLMs. Our detailed analyses provide insights into the strengths and
weaknesses of current models, though all models still fall short of human
performance by more than 20% on average, struggling with complex map images and
rigorous geo-spatial reasoning. This gap highlights MapEval's critical role in
advancing general-purpose foundation models with stronger geo-spatial
understanding.Summary
AI-Generated Summary