LEGO-Puzzles: Wie gut sind MLLMs bei mehrstufigem räumlichem Denken?
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?
March 25, 2025
Autoren: Kexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen
cs.AI
Zusammenfassung
Mehrschrittiges räumliches Denken umfasst das Verständnis und die Schlussfolgerung über räumliche Beziehungen über mehrere aufeinanderfolgende Schritte hinweg, was entscheidend für die Bewältigung komplexer realer Anwendungen wie der Roboter-Manipulation, der autonomen Navigation und der automatisierten Montage ist. Um zu bewerten, wie gut aktuelle Multimodale Große Sprachmodelle (MLLMs) diese grundlegende Fähigkeit erworben haben, führen wir LEGO-Puzzles ein, einen skalierbaren Benchmark, der darauf abzielt, sowohl das räumliche Verständnis als auch das sequenzielle Denken in MLLMs durch LEGO-basierte Aufgaben zu bewerten. LEGO-Puzzles besteht aus 1.100 sorgfältig kuratierten visuellen Frage-Antwort-Beispielen (VQA), die 11 verschiedene Aufgaben umfassen, die vom grundlegenden räumlichen Verständnis bis hin zu komplexem mehrschrittigem Denken reichen. Basierend auf LEGO-Puzzles führen wir eine umfassende Bewertung der modernsten MLLMs durch und decken erhebliche Einschränkungen in ihren räumlichen Denkfähigkeiten auf: selbst die leistungsstärksten MLLMs können nur etwa die Hälfte der Testfälle beantworten, während menschliche Teilnehmer eine Genauigkeit von über 90 % erreichen. Neben VQA-Aufgaben bewerten wir die Fähigkeiten der MLLMs, LEGO-Bilder gemäß Montageanleitungen zu generieren. Unsere Experimente zeigen, dass nur Gemini-2.0-Flash und GPT-4o eine begrenzte Fähigkeit besitzen, diesen Anweisungen zu folgen, während andere MLLMs entweder das Eingabebild replizieren oder völlig irrelevante Ausgaben erzeugen. Insgesamt deckt LEGO-Puzzles kritische Mängel im räumlichen Verständnis und sequenziellen Denken bestehender MLLMs auf und unterstreicht die Notwendigkeit weiterer Fortschritte im multimodalen räumlichen Denken.
English
Multi-step spatial reasoning entails understanding and reasoning about
spatial relationships across multiple sequential steps, which is crucial for
tackling complex real-world applications, such as robotic manipulation,
autonomous navigation, and automated assembly. To assess how well current
Multimodal Large Language Models (MLLMs) have acquired this fundamental
capability, we introduce LEGO-Puzzles, a scalable benchmark designed
to evaluate both spatial understanding and sequential
reasoning in MLLMs through LEGO-based tasks. LEGO-Puzzles consists of 1,100
carefully curated visual question-answering (VQA) samples spanning 11 distinct
tasks, ranging from basic spatial understanding to complex multi-step
reasoning. Based on LEGO-Puzzles, we conduct a comprehensive evaluation of
state-of-the-art MLLMs and uncover significant limitations in their spatial
reasoning capabilities: even the most powerful MLLMs can answer only about half
of the test cases, whereas human participants achieve over 90\% accuracy. In
addition to VQA tasks, we evaluate MLLMs' abilities to generate LEGO images
following assembly illustrations. Our experiments show that only
Gemini-2.0-Flash and GPT-4o exhibit a limited ability to follow these
instructions, while other MLLMs either replicate the input image or generate
completely irrelevant outputs. Overall, LEGO-Puzzles exposes critical
deficiencies in existing MLLMs' spatial understanding and sequential reasoning
capabilities, and underscores the need for further advancements in multimodal
spatial reasoning.Summary
AI-Generated Summary