ChatPaper.aiChatPaper

LEGO-Puzzle: Quanto Sono Efficaci i MLLM nel Ragionamento Spaziale Multi-step?

LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?

March 25, 2025
Autori: Kexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen
cs.AI

Abstract

Il ragionamento spaziale multi-step implica la comprensione e il ragionamento sulle relazioni spaziali attraverso più passaggi sequenziali, un aspetto cruciale per affrontare applicazioni complesse del mondo reale, come la manipolazione robotica, la navigazione autonoma e l'assemblaggio automatizzato. Per valutare quanto bene i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) attuali abbiano acquisito questa capacità fondamentale, introduciamo LEGO-Puzzles, un benchmark scalabile progettato per valutare sia la comprensione spaziale che il ragionamento sequenziale negli MLLMs attraverso attività basate su LEGO. LEGO-Puzzles consiste in 1.100 campioni curati con attenzione di domande e risposte visive (VQA) che coprono 11 compiti distinti, che vanno dalla comprensione spaziale di base al ragionamento multi-step complesso. Basandoci su LEGO-Puzzles, conduciamo una valutazione completa degli MLLMs più avanzati e scopriamo significative limitazioni nelle loro capacità di ragionamento spaziale: anche i MLLMs più potenti riescono a rispondere correttamente solo a circa la metà dei casi di test, mentre i partecipanti umani raggiungono un'accuratezza superiore al 90%. Oltre ai compiti VQA, valutiamo le capacità degli MLLMs di generare immagini LEGO seguendo illustrazioni di assemblaggio. I nostri esperimenti mostrano che solo Gemini-2.0-Flash e GPT-4o dimostrano una capacità limitata di seguire queste istruzioni, mentre altri MLLMs replicano l'immagine di input o generano output completamente irrilevanti. Nel complesso, LEGO-Puzzles mette in luce carenze critiche nella comprensione spaziale e nelle capacità di ragionamento sequenziale degli MLLMs esistenti, e sottolinea la necessità di ulteriori progressi nel ragionamento spaziale multimodale.
English
Multi-step spatial reasoning entails understanding and reasoning about spatial relationships across multiple sequential steps, which is crucial for tackling complex real-world applications, such as robotic manipulation, autonomous navigation, and automated assembly. To assess how well current Multimodal Large Language Models (MLLMs) have acquired this fundamental capability, we introduce LEGO-Puzzles, a scalable benchmark designed to evaluate both spatial understanding and sequential reasoning in MLLMs through LEGO-based tasks. LEGO-Puzzles consists of 1,100 carefully curated visual question-answering (VQA) samples spanning 11 distinct tasks, ranging from basic spatial understanding to complex multi-step reasoning. Based on LEGO-Puzzles, we conduct a comprehensive evaluation of state-of-the-art MLLMs and uncover significant limitations in their spatial reasoning capabilities: even the most powerful MLLMs can answer only about half of the test cases, whereas human participants achieve over 90\% accuracy. In addition to VQA tasks, we evaluate MLLMs' abilities to generate LEGO images following assembly illustrations. Our experiments show that only Gemini-2.0-Flash and GPT-4o exhibit a limited ability to follow these instructions, while other MLLMs either replicate the input image or generate completely irrelevant outputs. Overall, LEGO-Puzzles exposes critical deficiencies in existing MLLMs' spatial understanding and sequential reasoning capabilities, and underscores the need for further advancements in multimodal spatial reasoning.

Summary

AI-Generated Summary

PDF342March 27, 2025