ChatPaper.aiChatPaper

비디오-3D LLM: 3D 장면을 이해하기 위한 위치 인식 비디오 표현 학습

Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding

November 30, 2024
저자: Duo Zheng, Shijia Huang, Liwei Wang
cs.AI

초록

다중 모달 대형 언어 모델(MLLMs)의 신속한 발전은 다양한 다중 모달 작업에 중대한 영향을 미쳤습니다. 그러나 이러한 모델은 3D 환경 내에서 공간 이해가 필요한 작업에서 어려움을 겪습니다. 포인트 클라우드 피처를 통합하는 등 MLLMs를 향상시키기 위한 노력이 있었지만, 모델이 학습한 표현과 3D 장면의 본질적 복잡성 사이에 상당한 간극이 남아 있습니다. 이 불일치는 주로 MLLMs의 주로 2D 데이터에 대한 훈련에서 비롯되어 3D 공간을 이해하는 데 제약을 가하게 됩니다. 본 논문에서는 이 문제를 해결하기 위해 3D 장면 이해를 위한 혁신적인 종합 모델인 Video-3D LLM을 제안합니다. 3D 장면을 동적 비디오로 취급하고 이러한 표현에 3D 위치 인코딩을 통합함으로써, 우리의 Video-3D LLM은 비디오 표현을 실제 공간 맥락과 더 정확하게 일치시킵니다. 또한, 계산 비용과 성능 효율성 사이의 균형을 최적화하기 위해 최대 커버리지 샘플링 기술을 구현했습니다. 광범위한 실험을 통해 우리 모델이 ScanRefer, Multi3DRefer, Scan2Cap, ScanQA 및 SQA3D를 포함한 여러 3D 장면 이해 벤치마크에서 최첨단 성능을 달성한다는 것을 입증하였습니다.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has significantly impacted various multimodal tasks. However, these models face challenges in tasks that require spatial understanding within 3D environments. Efforts to enhance MLLMs, such as incorporating point cloud features, have been made, yet a considerable gap remains between the models' learned representations and the inherent complexity of 3D scenes. This discrepancy largely stems from the training of MLLMs on predominantly 2D data, which restricts their effectiveness in comprehending 3D spaces. To address this issue, in this paper, we propose a novel generalist model, i.e., Video-3D LLM, for 3D scene understanding. By treating 3D scenes as dynamic videos and incorporating 3D position encoding into these representations, our Video-3D LLM aligns video representations with real-world spatial contexts more accurately. Additionally, we have implemented a maximum coverage sampling technique to optimize the balance between computational costs and performance efficiency. Extensive experiments demonstrate that our model achieves state-of-the-art performance on several 3D scene understanding benchmarks, including ScanRefer, Multi3DRefer, Scan2Cap, ScanQA, and SQA3D.

Summary

AI-Generated Summary

PDF172December 5, 2024