3DGraphLLM:3Dシーン理解のための意味論的グラフと大規模言語モデルの組み合わせ
3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
December 24, 2024
著者: Tatiana Zemskova, Dmitry Yudin
cs.AI
要旨
3Dシーングラフは、コンパクトなシーンモデルを表し、オブジェクトとそれらの間の意味的な関係に関する情報を格納するため、ロボティックタスクにおいて有望な利用がされます。ユーザーと対話する際、具体的な自然言語で表現されたシーンに関するさまざまなクエリに応答できるように、具体的な知能エージェントは能力を持つべきです。大規模言語モデル(LLM)は、自然言語理解と推論能力により、ユーザーとロボットのインタラクションにおいて有益なソリューションです。最近の3Dシーンの学習可能な表現を作成するための手法は、3D世界に適応することでLLMの応答の品質を向上させる潜在能力を実証しています。しかしながら、既存の手法はオブジェクト間の意味的な関係に関する情報を明示的に活用しておらず、座標に関する情報に限定しています。本研究では、3Dシーングラフの学習可能な表現を構築するための3DGraphLLMという手法を提案します。この学習可能な表現は、LLMが3Dビジョン言語タスクを実行するための入力として使用されます。一般的なScanRefer、RIORefer、Multi3DRefer、ScanQA、Sqa3D、Scan2capのデータセットでの実験において、オブジェクト間の意味的な関係に関する情報を使用しないベースライン手法よりもこのアプローチの利点を実証します。コードは以下のURLから公開されています:https://github.com/CognitiveAISystems/3DGraphLLM。
English
A 3D scene graph represents a compact scene model, storing information about
the objects and the semantic relationships between them, making its use
promising for robotic tasks. When interacting with a user, an embodied
intelligent agent should be capable of responding to various queries about the
scene formulated in natural language. Large Language Models (LLMs) are
beneficial solutions for user-robot interaction due to their natural language
understanding and reasoning abilities. Recent methods for creating learnable
representations of 3D scenes have demonstrated the potential to improve the
quality of LLMs responses by adapting to the 3D world. However, the existing
methods do not explicitly utilize information about the semantic relationships
between objects, limiting themselves to information about their coordinates. In
this work, we propose a method 3DGraphLLM for constructing a learnable
representation of a 3D scene graph. The learnable representation is used as
input for LLMs to perform 3D vision-language tasks. In our experiments on
popular ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D, and Scan2cap
datasets, we demonstrate the advantage of this approach over baseline methods
that do not use information about the semantic relationships between objects.
The code is publicly available at
https://github.com/CognitiveAISystems/3DGraphLLM.Summary
AI-Generated Summary