3DGraphLLM: Combinando Grafos Semânticos e Modelos de Linguagem Grandes para Compreensão de Cena 3D
3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
December 24, 2024
Autores: Tatiana Zemskova, Dmitry Yudin
cs.AI
Resumo
Um grafo de cena 3D representa um modelo de cena compacto, armazenando informações sobre os objetos e os relacionamentos semânticos entre eles, tornando seu uso promissor para tarefas robóticas. Ao interagir com um usuário, um agente inteligente incorporado deve ser capaz de responder a várias consultas sobre a cena formuladas em linguagem natural. Modelos de Linguagem de Grande Escala (LLMs) são soluções benéficas para interação usuário-robô devido às suas habilidades de compreensão e raciocínio em linguagem natural. Métodos recentes para criar representações aprendíveis de cenas 3D têm demonstrado o potencial de melhorar a qualidade das respostas dos LLMs ao se adaptarem ao mundo 3D. No entanto, os métodos existentes não utilizam explicitamente informações sobre os relacionamentos semânticos entre objetos, limitando-se a informações sobre suas coordenadas. Neste trabalho, propomos um método 3DGraphLLM para construir uma representação aprendível de um grafo de cena 3D. A representação aprendível é usada como entrada para os LLMs realizarem tarefas de visão-linguagem 3D. Em nossos experimentos nos populares conjuntos de dados ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D e Scan2cap, demonstramos a vantagem desta abordagem sobre métodos de referência que não utilizam informações sobre os relacionamentos semânticos entre objetos. O código está publicamente disponível em https://github.com/CognitiveAISystems/3DGraphLLM.
English
A 3D scene graph represents a compact scene model, storing information about
the objects and the semantic relationships between them, making its use
promising for robotic tasks. When interacting with a user, an embodied
intelligent agent should be capable of responding to various queries about the
scene formulated in natural language. Large Language Models (LLMs) are
beneficial solutions for user-robot interaction due to their natural language
understanding and reasoning abilities. Recent methods for creating learnable
representations of 3D scenes have demonstrated the potential to improve the
quality of LLMs responses by adapting to the 3D world. However, the existing
methods do not explicitly utilize information about the semantic relationships
between objects, limiting themselves to information about their coordinates. In
this work, we propose a method 3DGraphLLM for constructing a learnable
representation of a 3D scene graph. The learnable representation is used as
input for LLMs to perform 3D vision-language tasks. In our experiments on
popular ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D, and Scan2cap
datasets, we demonstrate the advantage of this approach over baseline methods
that do not use information about the semantic relationships between objects.
The code is publicly available at
https://github.com/CognitiveAISystems/3DGraphLLM.Summary
AI-Generated Summary