3DGS-DET: 경계 안내 및 상자 집중 샘플링으로 3D 가우시안 스플래팅을 강화한 3D 객체 검출
3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection
October 2, 2024
저자: Yang Cao, Yuanliang Jv, Dan Xu
cs.AI
초록
신경 방사형 필드(NeRF)는 신규 뷰 합성에 널리 사용되며 3D 물체 감지(3DOD)에 적응되어 3DOD를 위한 뷰-합성 표현을 통해 유망한 접근 방식을 제공합니다. 그러나 NeRF는 내재적 한계에 직면합니다: (i) 암시적 성격으로 인한 3DOD를 위한 제한된 표현 능력 및 (ii) 느린 렌더링 속도. 최근에는 3D 가우시안 스플래팅(3DGS)이 이러한 한계를 해결하는 명시적 3D 표현으로 등장했습니다. 이러한 장점에 영감을 받아 본 논문은 3DGS를 3DOD에 처음으로 도입하며, (i) 가우시안 덩어리의 모호한 공간 분포: 3DGS는 주로 2D 픽셀 수준의 지도를 의존하므로 가우시안 덩어리의 3D 공간 분포가 불명확하고 물체와 배경 간 구분이 약해져 3DOD를 방해하는 도전에 직면했습니다; (ii) 과도한 배경 덩어리: 2D 이미지에는 종종 많은 배경 픽셀이 포함되어 있어 많은 잡음이 있는 가우시안 덩어리로 밀집되어 배경을 나타내며 감지에 부정적인 영향을 미칩니다. 도전 (i)을 해결하기 위해 3DGS 재구성이 2D 이미지에서 유도되었다는 사실을 활용하여 2D 경계 안내를 통합하여 가우시안 덩어리의 공간 분포를 크게 향상시키는 우아하고 효율적인 솔루션을 제안하여 물체와 배경 간 더 명확한 구분을 가능케 합니다. 도전 (ii)에 대응하기 위해 2D 상자를 사용하여 상자-중심 샘플링 전략을 제안하여 3D 공간에서 물체 확률 분포를 생성하고, 3D에서 효과적인 확률적 샘플링을 가능케 함으로써 물체 덩어리를 보다 많이 유지하고 잡음이 많은 배경 덩어리를 줄입니다. 우리의 설계로부터 혜택을 받아, 우리의 3DGS-DET은 최신 NeRF 기반 방법인 NeRF-Det을 크게 능가하여 ScanNet 데이터셋에서 [email protected]에서 +6.6 및 [email protected]에서 +8.1의 개선을 달성하고, ARKITScenes 데이터셋에서 [email protected]에서 +31.5의 인상적인 성과를 거두었습니다.
English
Neural Radiance Fields (NeRF) are widely used for novel-view synthesis and
have been adapted for 3D Object Detection (3DOD), offering a promising approach
to 3DOD through view-synthesis representation. However, NeRF faces inherent
limitations: (i) limited representational capacity for 3DOD due to its implicit
nature, and (ii) slow rendering speeds. Recently, 3D Gaussian Splatting (3DGS)
has emerged as an explicit 3D representation that addresses these limitations.
Inspired by these advantages, this paper introduces 3DGS into 3DOD for the
first time, identifying two main challenges: (i) Ambiguous spatial distribution
of Gaussian blobs: 3DGS primarily relies on 2D pixel-level supervision,
resulting in unclear 3D spatial distribution of Gaussian blobs and poor
differentiation between objects and background, which hinders 3DOD; (ii)
Excessive background blobs: 2D images often include numerous background pixels,
leading to densely reconstructed 3DGS with many noisy Gaussian blobs
representing the background, negatively affecting detection. To tackle the
challenge (i), we leverage the fact that 3DGS reconstruction is derived from 2D
images, and propose an elegant and efficient solution by incorporating 2D
Boundary Guidance to significantly enhance the spatial distribution of Gaussian
blobs, resulting in clearer differentiation between objects and their
background. To address the challenge (ii), we propose a Box-Focused Sampling
strategy using 2D boxes to generate object probability distribution in 3D
spaces, allowing effective probabilistic sampling in 3D to retain more object
blobs and reduce noisy background blobs. Benefiting from our designs, our
3DGS-DET significantly outperforms the SOTA NeRF-based method, NeRF-Det,
achieving improvements of +6.6 on [email protected] and +8.1 on [email protected] for the ScanNet
dataset, and impressive +31.5 on [email protected] for the ARKITScenes dataset.Summary
AI-Generated Summary