ChatPaper.aiChatPaper

LEGO-Puzzles: Wie gut sind MLLMs bei mehrstufigem räumlichem Denken?

LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?

March 25, 2025
Autoren: Kexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen
cs.AI

Zusammenfassung

Mehrschrittiges räumliches Denken umfasst das Verständnis und die Schlussfolgerung über räumliche Beziehungen über mehrere aufeinanderfolgende Schritte hinweg, was entscheidend für die Bewältigung komplexer realer Anwendungen wie der Roboter-Manipulation, der autonomen Navigation und der automatisierten Montage ist. Um zu bewerten, wie gut aktuelle Multimodale Große Sprachmodelle (MLLMs) diese grundlegende Fähigkeit erworben haben, führen wir LEGO-Puzzles ein, einen skalierbaren Benchmark, der darauf abzielt, sowohl das räumliche Verständnis als auch das sequenzielle Denken in MLLMs durch LEGO-basierte Aufgaben zu bewerten. LEGO-Puzzles besteht aus 1.100 sorgfältig kuratierten visuellen Frage-Antwort-Beispielen (VQA), die 11 verschiedene Aufgaben umfassen, die vom grundlegenden räumlichen Verständnis bis hin zu komplexem mehrschrittigem Denken reichen. Basierend auf LEGO-Puzzles führen wir eine umfassende Bewertung der modernsten MLLMs durch und decken erhebliche Einschränkungen in ihren räumlichen Denkfähigkeiten auf: selbst die leistungsstärksten MLLMs können nur etwa die Hälfte der Testfälle beantworten, während menschliche Teilnehmer eine Genauigkeit von über 90 % erreichen. Neben VQA-Aufgaben bewerten wir die Fähigkeiten der MLLMs, LEGO-Bilder gemäß Montageanleitungen zu generieren. Unsere Experimente zeigen, dass nur Gemini-2.0-Flash und GPT-4o eine begrenzte Fähigkeit besitzen, diesen Anweisungen zu folgen, während andere MLLMs entweder das Eingabebild replizieren oder völlig irrelevante Ausgaben erzeugen. Insgesamt deckt LEGO-Puzzles kritische Mängel im räumlichen Verständnis und sequenziellen Denken bestehender MLLMs auf und unterstreicht die Notwendigkeit weiterer Fortschritte im multimodalen räumlichen Denken.
English
Multi-step spatial reasoning entails understanding and reasoning about spatial relationships across multiple sequential steps, which is crucial for tackling complex real-world applications, such as robotic manipulation, autonomous navigation, and automated assembly. To assess how well current Multimodal Large Language Models (MLLMs) have acquired this fundamental capability, we introduce LEGO-Puzzles, a scalable benchmark designed to evaluate both spatial understanding and sequential reasoning in MLLMs through LEGO-based tasks. LEGO-Puzzles consists of 1,100 carefully curated visual question-answering (VQA) samples spanning 11 distinct tasks, ranging from basic spatial understanding to complex multi-step reasoning. Based on LEGO-Puzzles, we conduct a comprehensive evaluation of state-of-the-art MLLMs and uncover significant limitations in their spatial reasoning capabilities: even the most powerful MLLMs can answer only about half of the test cases, whereas human participants achieve over 90\% accuracy. In addition to VQA tasks, we evaluate MLLMs' abilities to generate LEGO images following assembly illustrations. Our experiments show that only Gemini-2.0-Flash and GPT-4o exhibit a limited ability to follow these instructions, while other MLLMs either replicate the input image or generate completely irrelevant outputs. Overall, LEGO-Puzzles exposes critical deficiencies in existing MLLMs' spatial understanding and sequential reasoning capabilities, and underscores the need for further advancements in multimodal spatial reasoning.

Summary

AI-Generated Summary

PDF322March 27, 2025