SAMPart3D: Segmenteer Elk Deel in 3D Objecten

Samenvatting

3D onderdeelsegmentatie is een cruciale en uitdagende taak in 3D-perceptie, met een belangrijke rol in toepassingen zoals robotica, 3D-generatie en 3D-bewerking. Recente methoden maken gebruik van krachtige Vision Language Models (VLM's) voor kennisdestillatie van 2D naar 3D, waardoor zero-shot 3D onderdeelsegmentatie wordt bereikt. Deze methoden zijn echter beperkt door hun afhankelijkheid van tekstprompts, wat de schaalbaarheid naar grootschalige ongelabelde datasets en de flexibiliteit bij het omgaan met deelambiguïteiten beperkt. In dit werk introduceren we SAMPart3D, een schaalbaar zero-shot 3D onderdeelsegmentatiekader dat elk 3D-object in semantische delen op meerdere granulariteitsniveaus segmenteert, zonder vooraf gedefinieerde deellabelsets als tekstprompts te vereisen. Voor schaalbaarheid gebruiken we tekstagnostische vision foundation-modellen om een 3D-functie-extractiebackbone te destilleren, waardoor schalen naar grote ongelabelde 3D-datasets mogelijk is om rijke 3D-voorkennis te leren. Voor flexibiliteit destilleren we schaal-geconditioneerde deelbewuste 3D-kenmerken voor 3D onderdeelsegmentatie op meerdere granulariteitsniveaus. Zodra de gesegmenteerde delen zijn verkregen uit de schaal-geconditioneerde deelbewuste 3D-kenmerken, gebruiken we VLM's om semantische labels toe te wijzen aan elk deel op basis van de multi-view renderings. In vergelijking met eerdere methoden kan onze SAMPart3D schalen naar de recente grootschalige 3D-objectdataset Objaverse en complexe, niet-alledaagse objecten verwerken. Daarnaast dragen we bij aan een nieuwe 3D onderdeelsegmentatie benchmark om het gebrek aan diversiteit en complexiteit van objecten en delen in bestaande benchmarks aan te pakken. Experimenten tonen aan dat onze SAMPart3D aanzienlijk beter presteert dan bestaande zero-shot 3D onderdeelsegmentatiemethoden en verschillende toepassingen zoals bewerking op de deelniveau en interactieve segmentatie kan vergemakkelijken.

English

3D part segmentation is a crucial and challenging task in 3D perception, playing a vital role in applications such as robotics, 3D generation, and 3D editing. Recent methods harness the powerful Vision Language Models (VLMs) for 2D-to-3D knowledge distillation, achieving zero-shot 3D part segmentation. However, these methods are limited by their reliance on text prompts, which restricts the scalability to large-scale unlabeled datasets and the flexibility in handling part ambiguities. In this work, we introduce SAMPart3D, a scalable zero-shot 3D part segmentation framework that segments any 3D object into semantic parts at multiple granularities, without requiring predefined part label sets as text prompts. For scalability, we use text-agnostic vision foundation models to distill a 3D feature extraction backbone, allowing scaling to large unlabeled 3D datasets to learn rich 3D priors. For flexibility, we distill scale-conditioned part-aware 3D features for 3D part segmentation at multiple granularities. Once the segmented parts are obtained from the scale-conditioned part-aware 3D features, we use VLMs to assign semantic labels to each part based on the multi-view renderings. Compared to previous methods, our SAMPart3D can scale to the recent large-scale 3D object dataset Objaverse and handle complex, non-ordinary objects. Additionally, we contribute a new 3D part segmentation benchmark to address the lack of diversity and complexity of objects and parts in existing benchmarks. Experiments show that our SAMPart3D significantly outperforms existing zero-shot 3D part segmentation methods, and can facilitate various applications such as part-level editing and interactive segmentation.

SAMPart3D: Segmenteer Elk Deel in 3D Objecten

SAMPart3D: Segment Any Part in 3D Objects

Samenvatting

Support