Können große visuell-sprachliche Modelle Karten wie ein Mensch lesen?
Can Large Vision Language Models Read Maps Like a Human?
March 18, 2025
Autoren: Shuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu
cs.AI
Zusammenfassung
In diesem Artikel stellen wir MapBench vor – den ersten Datensatz, der speziell für menschenlesbare, pixelbasierte Karten zur Navigation im Freien entwickelt wurde und aus komplexen Pfadfindungsszenarien zusammengestellt ist. MapBench umfasst über 1600 Pfadfindungsprobleme im Pixelraum, die aus 100 verschiedenen Karten stammen. In MapBench generieren LVLMs (Large Vision-Language Models) sprachbasierte Navigationsanweisungen, basierend auf einem Kartenbild und einer Abfrage mit Start- und Zielpunkten. Für jede Karte bietet MapBench ein Map Space Scene Graph (MSSG) als Indexierungsdatenstruktur, um zwischen natürlicher Sprache und den von LVLMs generierten Ergebnissen zu konvertieren und diese zu bewerten. Wir zeigen, dass MapBench state-of-the-art LVLMs sowohl im Zero-Shot-Prompting als auch in einem Chain-of-Thought (CoT)-erweiterten Reasoning-Framework, das die Kartennavigation in sequenzielle kognitive Prozesse zerlegt, erheblich herausfordert. Unsere Bewertung sowohl von Open-Source- als auch von Closed-Source-LVLMs unterstreicht die erheblichen Schwierigkeiten, die MapBench darstellt, und offenbart kritische Einschränkungen in ihren räumlichen Denk- und strukturierten Entscheidungsfähigkeiten. Wir veröffentlichen den gesamten Code und den Datensatz unter https://github.com/taco-group/MapBench.
English
In this paper, we introduce MapBench-the first dataset specifically designed
for human-readable, pixel-based map-based outdoor navigation, curated from
complex path finding scenarios. MapBench comprises over 1600 pixel space map
path finding problems from 100 diverse maps. In MapBench, LVLMs generate
language-based navigation instructions given a map image and a query with
beginning and end landmarks. For each map, MapBench provides Map Space Scene
Graph (MSSG) as an indexing data structure to convert between natural language
and evaluate LVLM-generated results. We demonstrate that MapBench significantly
challenges state-of-the-art LVLMs both zero-shot prompting and a
Chain-of-Thought (CoT) augmented reasoning framework that decomposes map
navigation into sequential cognitive processes. Our evaluation of both
open-source and closed-source LVLMs underscores the substantial difficulty
posed by MapBench, revealing critical limitations in their spatial reasoning
and structured decision-making capabilities. We release all the code and
dataset in https://github.com/taco-group/MapBench.Summary
AI-Generated Summary