ARKit LabelMaker : Une nouvelle échelle pour la compréhension de scènes 3D intérieures
ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding
October 17, 2024
Auteurs: Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum
cs.AI
Résumé
Les performances des réseaux neuronaux augmentent à la fois avec leur taille et la quantité de données sur lesquelles ils ont été entraînés. Cela est démontré à la fois dans la génération de langage et d'images. Cependant, cela nécessite des architectures de réseau adaptées à la mise à l'échelle ainsi que des ensembles de données à grande échelle. Bien que des architectures adaptées à la mise à l'échelle comme les transformeurs aient émergé pour les tâches de vision 3D, le moment GPT de la vision 3D reste lointain en raison du manque de données d'entraînement. Dans cet article, nous présentons ARKit LabelMaker, le premier ensemble de données 3D à grande échelle du monde réel avec des annotations sémantiques denses. Plus précisément, nous complétons l'ensemble de données ARKitScenes avec des annotations sémantiques denses générées automatiquement à grande échelle. À cette fin, nous étendons LabelMaker, un pipeline d'annotation automatique récent, pour répondre aux besoins de la pré-formation à grande échelle. Cela implique d'étendre le pipeline avec des modèles de segmentation de pointe ainsi que de le rendre robuste aux défis du traitement à grande échelle. De plus, nous faisons progresser les performances de pointe sur les ensembles de données ScanNet et ScanNet200 avec des modèles prédominants de segmentation sémantique 3D, démontrant l'efficacité de notre ensemble de données généré.
English
The performance of neural networks scales with both their size and the amount
of data they have been trained on. This is shown in both language and image
generation. However, this requires scaling-friendly network architectures as
well as large-scale datasets. Even though scaling-friendly architectures like
transformers have emerged for 3D vision tasks, the GPT-moment of 3D vision
remains distant due to the lack of training data. In this paper, we introduce
ARKit LabelMaker, the first large-scale, real-world 3D dataset with dense
semantic annotations. Specifically, we complement ARKitScenes dataset with
dense semantic annotations that are automatically generated at scale. To this
end, we extend LabelMaker, a recent automatic annotation pipeline, to serve the
needs of large-scale pre-training. This involves extending the pipeline with
cutting-edge segmentation models as well as making it robust to the challenges
of large-scale processing. Further, we push forward the state-of-the-art
performance on ScanNet and ScanNet200 dataset with prevalent 3D semantic
segmentation models, demonstrating the efficacy of our generated dataset.Summary
AI-Generated Summary