ChatPaper.aiChatPaper

텍스트 기반 희소 복셀 프루닝을 통한 효율적인 3D 시각적 그라운딩

Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

February 14, 2025
저자: Wenxuan Guo, Xiuwei Xu, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
cs.AI

초록

본 논문에서는 3D 시각적 그라운딩을 위한 효율적인 다단계 합성곱 아키텍처를 제안한다. 기존 방법들은 2단계 또는 포인트 기반 아키텍처로 인해 실시간 추론 요구사항을 충족하기 어려웠다. 3D 객체 탐지에서 다단계 완전 희소 합성곱 아키텍처의 성공에 영감을 받아, 우리는 이 기술 경로를 따라 새로운 3D 시각적 그라운딩 프레임워크를 구축하고자 한다. 그러나 3D 시각적 그라운딩 작업에서는 3D 장면 표현이 텍스트 특징과 깊이 상호작용해야 하며, 희소 합성곱 기반 아키텍처는 대량의 복셀 특징으로 인해 이러한 상호작용에 비효율적이다. 이를 위해, 우리는 점진적인 영역 가지치기와 타겟 완성을 통해 3D 장면 표현과 텍스트 특징을 효율적으로 융합하기 위한 텍스트 기반 가지치기(TGP)와 완성 기반 추가(CBA)를 제안한다. 구체적으로, TGP는 3D 장면 표현을 반복적으로 희소화하여 복셀 특징과 텍스트 특징이 교차 주의를 통해 효율적으로 상호작용하도록 한다. 또한, CBA는 과도하게 가지치기된 영역을 복셀 완성으로 적응적으로 수정하여 섬세한 기하학적 정보에 미치는 영향을 완화하며, 이는 무시할 만한 계산 오버헤드로 수행된다. 이전의 단일 단계 방법들과 비교했을 때, 우리의 방법은 최고의 추론 속도를 달성하며 이전 가장 빠른 방법보다 100% 더 높은 FPS를 보인다. 또한, 우리의 방법은 2단계 방법들과 비교해도 최첨단 정확도를 달성하며, ScanRefer에서 Acc@0.5 기준 +1.13, NR3D와 SR3D에서는 각각 +2.6과 +3.2의 성능 향상을 보인다. 코드는 https://github.com/GWxuan/TSP3D에서 확인할 수 있다.
English
In this paper, we propose an efficient multi-level convolution architecture for 3D visual grounding. Conventional methods are difficult to meet the requirements of real-time inference due to the two-stage or point-based architecture. Inspired by the success of multi-level fully sparse convolutional architecture in 3D object detection, we aim to build a new 3D visual grounding framework following this technical route. However, as in 3D visual grounding task the 3D scene representation should be deeply interacted with text features, sparse convolution-based architecture is inefficient for this interaction due to the large amount of voxel features. To this end, we propose text-guided pruning (TGP) and completion-based addition (CBA) to deeply fuse 3D scene representation and text features in an efficient way by gradual region pruning and target completion. Specifically, TGP iteratively sparsifies the 3D scene representation and thus efficiently interacts the voxel features with text features by cross-attention. To mitigate the affect of pruning on delicate geometric information, CBA adaptively fixes the over-pruned region by voxel completion with negligible computational overhead. Compared with previous single-stage methods, our method achieves top inference speed and surpasses previous fastest method by 100\% FPS. Our method also achieves state-of-the-art accuracy even compared with two-stage methods, with +1.13 lead of Acc@0.5 on ScanRefer, and +2.6 and +3.2 leads on NR3D and SR3D respectively. The code is available at https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.

Summary

AI-Generated Summary

PDF62February 17, 2025