3DGraphLLM: Combinare Grafi Semantici e Grandi Modelli Linguistici per la Comprensione delle Scene in 3D
3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
December 24, 2024
Autori: Tatiana Zemskova, Dmitry Yudin
cs.AI
Abstract
Un grafo della scena 3D rappresenta un modello di scena compatto, memorizzando informazioni sugli oggetti e sulle relazioni semantiche tra di essi, rendendo il suo utilizzo promettente per compiti robotici. Quando interagisce con un utente, un agente intelligente incorporato dovrebbe essere in grado di rispondere a varie richieste sulla scena formulate in linguaggio naturale. I Grandi Modelli Linguistici (LLM) sono soluzioni vantaggiose per l'interazione utente-robot grazie alla loro comprensione del linguaggio naturale e alle capacità di ragionamento. I metodi recenti per la creazione di rappresentazioni apprendibili di scene 3D hanno dimostrato il potenziale di migliorare la qualità delle risposte dei LLM adattandosi al mondo 3D. Tuttavia, i metodi esistenti non utilizzano esplicitamente informazioni sulle relazioni semantiche tra gli oggetti, limitandosi alle informazioni sulle loro coordinate. In questo lavoro, proponiamo un metodo 3DGraphLLM per la costruzione di una rappresentazione apprendibile di un grafo della scena 3D. La rappresentazione apprendibile viene utilizzata come input per i LLM per eseguire compiti di visione-linguaggio 3D. Nei nostri esperimenti sui popolari dataset ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D e Scan2cap, dimostriamo il vantaggio di questo approccio rispetto ai metodi di base che non utilizzano informazioni sulle relazioni semantiche tra gli oggetti. Il codice è disponibile pubblicamente su https://github.com/CognitiveAISystems/3DGraphLLM.
English
A 3D scene graph represents a compact scene model, storing information about
the objects and the semantic relationships between them, making its use
promising for robotic tasks. When interacting with a user, an embodied
intelligent agent should be capable of responding to various queries about the
scene formulated in natural language. Large Language Models (LLMs) are
beneficial solutions for user-robot interaction due to their natural language
understanding and reasoning abilities. Recent methods for creating learnable
representations of 3D scenes have demonstrated the potential to improve the
quality of LLMs responses by adapting to the 3D world. However, the existing
methods do not explicitly utilize information about the semantic relationships
between objects, limiting themselves to information about their coordinates. In
this work, we propose a method 3DGraphLLM for constructing a learnable
representation of a 3D scene graph. The learnable representation is used as
input for LLMs to perform 3D vision-language tasks. In our experiments on
popular ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D, and Scan2cap
datasets, we demonstrate the advantage of this approach over baseline methods
that do not use information about the semantic relationships between objects.
The code is publicly available at
https://github.com/CognitiveAISystems/3DGraphLLM.Summary
AI-Generated Summary