SAMPart3D: Segmentazione di Qualsiasi Parte negli Oggetti 3D
SAMPart3D: Segment Any Part in 3D Objects
November 11, 2024
Autori: Yunhan Yang, Yukun Huang, Yuan-Chen Guo, Liangjun Lu, Xiaoyang Wu, Edmund Y. Lam, Yan-Pei Cao, Xihui Liu
cs.AI
Abstract
La segmentazione delle parti in 3D è un compito cruciale e impegnativo nella percezione tridimensionale, svolgendo un ruolo vitale in applicazioni come la robotica, la generazione 3D e l'editing 3D. Metodi recenti sfruttano i potenti Modelli di Visione del Linguaggio (VLMs) per la distillazione della conoscenza da 2D a 3D, raggiungendo la segmentazione delle parti in 3D senza utilizzare dati di addestramento. Tuttavia, questi metodi sono limitati dalla dipendenza da prompt di testo, che limita la scalabilità a set di dati non etichettati su larga scala e la flessibilità nel gestire ambiguità delle parti. In questo lavoro, presentiamo SAMPart3D, un framework scalabile per la segmentazione delle parti in 3D senza utilizzo di dati di addestramento che suddivide qualsiasi oggetto 3D in parti semantiche a molteplici livelli di granularità, senza richiedere insiemi di etichette di parti predefinite come prompt di testo. Per la scalabilità, utilizziamo modelli di base di visione agnostici rispetto al testo per distillare un'infrastruttura di estrazione delle caratteristiche in 3D, consentendo di scalare a grandi set di dati 3D non etichettati per apprendere ricche conoscenze 3D. Per la flessibilità, distilliamo caratteristiche 3D consapevoli della scala e delle parti per la segmentazione delle parti in 3D a molteplici livelli di granularità. Una volta ottenute le parti segmentate dalle caratteristiche 3D consapevoli della scala e delle parti, utilizziamo i VLM per assegnare etichette semantiche a ciascuna parte basandoci sulle rappresentazioni multi-view. Rispetto ai metodi precedenti, il nostro SAMPart3D può scalare al recente set di dati sugli oggetti 3D su larga scala Objaverse e gestire oggetti complessi e non ordinari. Inoltre, contribuiamo con un nuovo benchmark per la segmentazione delle parti in 3D per affrontare la mancanza di diversità e complessità degli oggetti e delle parti nei benchmark esistenti. Gli esperimenti mostrano che il nostro SAMPart3D supera significativamente i metodi esistenti di segmentazione delle parti in 3D senza utilizzo di dati di addestramento e può facilitare varie applicazioni come l'editing a livello di parti e la segmentazione interattiva.
English
3D part segmentation is a crucial and challenging task in 3D perception,
playing a vital role in applications such as robotics, 3D generation, and 3D
editing. Recent methods harness the powerful Vision Language Models (VLMs) for
2D-to-3D knowledge distillation, achieving zero-shot 3D part segmentation.
However, these methods are limited by their reliance on text prompts, which
restricts the scalability to large-scale unlabeled datasets and the flexibility
in handling part ambiguities. In this work, we introduce SAMPart3D, a scalable
zero-shot 3D part segmentation framework that segments any 3D object into
semantic parts at multiple granularities, without requiring predefined part
label sets as text prompts. For scalability, we use text-agnostic vision
foundation models to distill a 3D feature extraction backbone, allowing scaling
to large unlabeled 3D datasets to learn rich 3D priors. For flexibility, we
distill scale-conditioned part-aware 3D features for 3D part segmentation at
multiple granularities. Once the segmented parts are obtained from the
scale-conditioned part-aware 3D features, we use VLMs to assign semantic labels
to each part based on the multi-view renderings. Compared to previous methods,
our SAMPart3D can scale to the recent large-scale 3D object dataset Objaverse
and handle complex, non-ordinary objects. Additionally, we contribute a new 3D
part segmentation benchmark to address the lack of diversity and complexity of
objects and parts in existing benchmarks. Experiments show that our SAMPart3D
significantly outperforms existing zero-shot 3D part segmentation methods, and
can facilitate various applications such as part-level editing and interactive
segmentation.Summary
AI-Generated Summary