SAMPart3D : Segmenter n'importe quelle partie dans des objets 3D
SAMPart3D: Segment Any Part in 3D Objects
November 11, 2024
Auteurs: Yunhan Yang, Yukun Huang, Yuan-Chen Guo, Liangjun Lu, Xiaoyang Wu, Edmund Y. Lam, Yan-Pei Cao, Xihui Liu
cs.AI
Résumé
La segmentation de pièces en 3D est une tâche cruciale et complexe en perception 3D, jouant un rôle vital dans des applications telles que la robotique, la génération 3D et l'édition 3D. Les méthodes récentes exploitent les puissants Modèles de Langage Vision (VLM) pour la distillation des connaissances de 2D à 3D, permettant d'atteindre une segmentation de pièces en 3D sans étiquetage. Cependant, ces méthodes sont limitées par leur dépendance aux instructions textuelles, ce qui restreint la scalabilité aux ensembles de données non étiquetés à grande échelle et la flexibilité dans la gestion des ambiguïtés de pièces. Dans ce travail, nous introduisons SAMPart3D, un cadre de segmentation de pièces en 3D sans étiquetage et scalable qui segmente tout objet 3D en parties sémantiques à plusieurs granularités, sans nécessiter d'ensembles d'étiquettes de pièces prédéfinis comme instructions textuelles. Pour la scalabilité, nous utilisons des modèles de vision fondamentaux agnostiques au texte pour distiller une colonne vertébrale d'extraction de caractéristiques 3D, permettant de passer à des ensembles de données 3D non étiquetés à grande échelle pour apprendre des connaissances 3D riches. Pour la flexibilité, nous distillons des caractéristiques 3D conscientes de la taille et des parties pour la segmentation de pièces en 3D à plusieurs granularités. Une fois que les parties segmentées sont obtenues à partir des caractéristiques 3D conscientes de la taille et des parties, nous utilisons des VLM pour attribuer des étiquettes sémantiques à chaque partie en fonction des rendus multi-vues. Comparé aux méthodes précédentes, notre SAMPart3D peut s'adapter à l'ensemble de données d'objets 3D à grande échelle récente Objaverse et gérer des objets complexes et non ordinaires. De plus, nous contribuons à un nouveau banc d'essai de segmentation de pièces en 3D pour pallier le manque de diversité et de complexité des objets et des pièces dans les bancs d'essai existants. Les expériences montrent que notre SAMPart3D surpasse significativement les méthodes existantes de segmentation de pièces en 3D sans étiquetage, et peut faciliter diverses applications telles que l'édition au niveau des pièces et la segmentation interactive.
English
3D part segmentation is a crucial and challenging task in 3D perception,
playing a vital role in applications such as robotics, 3D generation, and 3D
editing. Recent methods harness the powerful Vision Language Models (VLMs) for
2D-to-3D knowledge distillation, achieving zero-shot 3D part segmentation.
However, these methods are limited by their reliance on text prompts, which
restricts the scalability to large-scale unlabeled datasets and the flexibility
in handling part ambiguities. In this work, we introduce SAMPart3D, a scalable
zero-shot 3D part segmentation framework that segments any 3D object into
semantic parts at multiple granularities, without requiring predefined part
label sets as text prompts. For scalability, we use text-agnostic vision
foundation models to distill a 3D feature extraction backbone, allowing scaling
to large unlabeled 3D datasets to learn rich 3D priors. For flexibility, we
distill scale-conditioned part-aware 3D features for 3D part segmentation at
multiple granularities. Once the segmented parts are obtained from the
scale-conditioned part-aware 3D features, we use VLMs to assign semantic labels
to each part based on the multi-view renderings. Compared to previous methods,
our SAMPart3D can scale to the recent large-scale 3D object dataset Objaverse
and handle complex, non-ordinary objects. Additionally, we contribute a new 3D
part segmentation benchmark to address the lack of diversity and complexity of
objects and parts in existing benchmarks. Experiments show that our SAMPart3D
significantly outperforms existing zero-shot 3D part segmentation methods, and
can facilitate various applications such as part-level editing and interactive
segmentation.Summary
AI-Generated Summary