ARKit LabelMaker: 실내 3D 장면 이해를 위한 새로운 척도

ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding

October 17, 2024
저자: Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum
cs.AI

초록

신경망의 성능은 그 크기와 훈련된 데이터 양 모두에 비례합니다. 이는 언어 및 이미지 생성에서 나타납니다. 그러나 이를 위해서는 규모 조정에 친화적인 네트워크 구조와 대규모 데이터셋이 필요합니다. 최근에는 3D 비전 작업을 위한 변형자와 같은 규모 조정에 친화적인 구조가 등장했지만, 훈련 데이터 부족으로 인해 3D 비전의 GPT-순간은 아직 먼 것으로 남아 있습니다. 본 논문에서는 밀도 높은 의미 주석이 포함된 최초의 대규모 현실 세계 3D 데이터셋인 ARKit LabelMaker를 소개합니다. 구체적으로, ARKitScenes 데이터셋을 밀도 높은 의미 주석으로 보완하였으며, 이는 규모에 맞게 자동으로 생성되었습니다. 이를 위해 최근 개발된 자동 주석 파이프라인인 LabelMaker를 확장하여 대규모 사전 훈련의 요구를 충족시켰습니다. 이는 최첨단 분할 모델을 통합하고 대규모 처리의 어려움에 견고하게 대응하는 것을 포함합니다. 더 나아가, 우리가 생성한 데이터셋의 효과를 입증하기 위해 주요 3D 의미 분할 모델을 사용하여 ScanNet 및 ScanNet200 데이터셋에서 최신 기술 성능을 더욱 향상시켰습니다.
English
The performance of neural networks scales with both their size and the amount of data they have been trained on. This is shown in both language and image generation. However, this requires scaling-friendly network architectures as well as large-scale datasets. Even though scaling-friendly architectures like transformers have emerged for 3D vision tasks, the GPT-moment of 3D vision remains distant due to the lack of training data. In this paper, we introduce ARKit LabelMaker, the first large-scale, real-world 3D dataset with dense semantic annotations. Specifically, we complement ARKitScenes dataset with dense semantic annotations that are automatically generated at scale. To this end, we extend LabelMaker, a recent automatic annotation pipeline, to serve the needs of large-scale pre-training. This involves extending the pipeline with cutting-edge segmentation models as well as making it robust to the challenges of large-scale processing. Further, we push forward the state-of-the-art performance on ScanNet and ScanNet200 dataset with prevalent 3D semantic segmentation models, demonstrating the efficacy of our generated dataset.

Summary

AI-Generated Summary

PDF62November 16, 2024