AlphaSpace: Abilitare Azioni Robotiche attraverso Tokenizzazione Semantica e Ragionamento Simbolico
AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning
March 24, 2025
Autori: Alan Dao, Dinh Bach Vu, Bui Quang Huy
cs.AI
Abstract
Questo articolo presenta AlphaSpace, una metodologia innovativa progettata per potenziare le capacità di ragionamento spaziale dei grandi modelli linguistici (LLMs) nella navigazione dello spazio cartesiano 3D. AlphaSpace utilizza una strategia di tokenizzazione basata sulla semantica, codificando le informazioni sull'altezza attraverso token semantici specializzati, e integra principalmente dati sintetici di ragionamento simbolico. Questo approccio consente ai LLMs di manipolare con precisione gli oggetti posizionandoli in coordinate specifiche [x, y, z]. I risultati sperimentali dimostrano che AlphaSpace supera significativamente i modelli esistenti nei sottotask di manipolazione, raggiungendo un'accuratezza totale del 66,67%, rispetto al 37,5% di GPT-4o e al 29,17% di Claude 3.5 Sonnet.
English
This paper presents AlphaSpace, a novel methodology designed to enhance the
spatial reasoning capabilities of large language models (LLMs) for 3D Cartesian
space navigation. AlphaSpace employs a semantics-based tokenization strategy,
encoding height information through specialized semantic tokens, and integrates
primarily symbolic synthetic reasoning data. This approach enables LLMs to
accurately manipulate objects by positioning them at specific [x, y, z]
coordinates. Experimental results demonstrate that AlphaSpace significantly
outperforms existing models on manipulation subtasks, achieving a total
accuracy of 66.67%, compared to 37.5% for GPT-4o and 29.17% for Claude 3.5
Sonnet.Summary
AI-Generated Summary