ChatPaper.aiChatPaper

LSceneLLM: 적응형 시각 선호도를 활용한 대규모 3D 장면 이해 향상

LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences

December 2, 2024
저자: Hongyan Zhi, Peihao Chen, Junyan Li, Shuailei Ma, Xinyu Sun, Tianhang Xiang, Yinjie Lei, Mingkui Tan, Chuang Gan
cs.AI

초록

3D Vision-Language Models (3D-VLMs)에 대한 연구가 점차 더 많은 관심을 받고 있으며, 이는 시각적 내비게이션과 신체적 질문 응답을 통해 3D 장면 내에서 구현된 AI를 개발하는 데 중요합니다. 특히 대규모 3D 장면에서 시각적 기능이 높은 밀도로 인해 작업 관련 시각적 정보를 정확하게 식별하는 것은 어려운 과제입니다. 기존 연구는 모든 객체를 분할하고 그들의 특징을 장면 표현으로 고려하려고 합니다. 그러나 이러한 작업에 중립적인 객체 특징은 많은 중복 정보와 작업 관련 영역에 대한 부족한 세부 정보를 포함하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 LSceneLLM을 제안합니다. 이는 LLM의 시각적 선호도를 활용하여 작업에 따라 자동으로 작업 관련 영역을 식별하고, 이어서 초점을 맞춘 영역에서 세부적인 세부 정보를 캡처하기 위한 플러그 앤 플레이 장면 확대 모듈을 사용합니다. 구체적으로, 밀도 토큰 선택기는 LLM의 주의 맵을 검사하여 명령 입력에 대한 시각적 선호도를 식별합니다. 그런 다음 초점을 맞춘 영역의 세부 정보를 확대합니다. 적응형 자기 주의 모듈을 활용하여 굵은 세부 정보와 선택된 세부 세부 정보를 융합합니다. 3D-VLMs의 대규모 장면 이해 능력을 종합적으로 평가하기 위해, 우리는 크로스-룸 이해 벤치마크인 XR-Scene을 소개합니다. 이는 XR-QA, XR-EmbodiedPlanning 및 XR-SceneCaption을 포함한 일련의 대규모 장면 이해 작업을 포함합니다. 실험 결과, 우리의 방법이 대규모 장면 이해 및 기존 장면 이해 벤치마크 모두에서 기존 방법을 능가함을 보여줍니다. 기존의 3D-VLMs에 우리의 장면 확대 모듈을 적용하는 것도 상당한 향상을 가져옵니다.
English
Research on 3D Vision-Language Models (3D-VLMs) is gaining increasing attention, which is crucial for developing embodied AI within 3D scenes, such as visual navigation and embodied question answering. Due to the high density of visual features, especially in large 3D scenes, accurately locating task-relevant visual information is challenging. Existing works attempt to segment all objects and consider their features as scene representations. However, these task-agnostic object features include much redundant information and missing details for the task-relevant area. To tackle these problems, we propose LSceneLLM, an adaptive framework that automatically identifies task-relevant areas by leveraging LLM's visual preference for different tasks, followed by a plug-and-play scene magnifier module to capture fine-grained details in focused areas. Specifically, a dense token selector examines the attention map of LLM to identify visual preferences for the instruction input. It then magnifies fine-grained details of the focusing area. An adaptive self-attention module is leveraged to fuse the coarse-grained and selected fine-grained visual information. To comprehensively evaluate the large scene understanding ability of 3D-VLMs, we further introduce a cross-room understanding benchmark, XR-Scene, which contains a series of large scene understanding tasks including XR-QA, XR-EmbodiedPlanning, and XR-SceneCaption. Experiments show that our method surpasses existing methods on both large scene understanding and existing scene understanding benchmarks. Plunging our scene magnifier module into the existing 3D-VLMs also brings significant improvement.

Summary

AI-Generated Summary

PDF132December 4, 2024