SAMPart3D: Segmentiere beliebige Teile in 3D-Objekten

SAMPart3D: Segment Any Part in 3D Objects

November 11, 2024
Autoren: Yunhan Yang, Yukun Huang, Yuan-Chen Guo, Liangjun Lu, Xiaoyang Wu, Edmund Y. Lam, Yan-Pei Cao, Xihui Liu
cs.AI

Zusammenfassung

Die Segmentierung von 3D-Teilen ist eine entscheidende und anspruchsvolle Aufgabe in der 3D-Wahrnehmung und spielt eine wichtige Rolle in Anwendungen wie Robotik, 3D-Generierung und 3D-Bearbeitung. Aktuelle Methoden nutzen leistungsstarke Vision Language Models (VLMs) für die Wissensdestillation von 2D zu 3D und erreichen eine Zero-Shot-Segmentierung von 3D-Teilen. Diese Methoden sind jedoch durch ihre Abhängigkeit von Texteingaben eingeschränkt, was die Skalierbarkeit auf groß angelegte unbeschriftete Datensätze und die Flexibilität im Umgang mit Teilambiguitäten einschränkt. In dieser Arbeit stellen wir SAMPart3D vor, ein skalierbares Zero-Shot-3D-Teilsegmentierungsframework, das jedes 3D-Objekt in semantische Teile in mehreren Granularitäten segmentiert, ohne vordefinierte Teilbezeichnungssets als Texteingaben zu benötigen. Für die Skalierbarkeit verwenden wir textagnostische Vision-Grundlagenmodelle, um ein 3D-Feature-Extraktionsrückgrat zu destillieren, das eine Skalierung auf große unbeschriftete 3D-Datensätze ermöglicht, um reiche 3D-Prioritäten zu lernen. Für die Flexibilität destillieren wir skalakonditionierte, teilbewusste 3D-Merkmale für die 3D-Teilsegmentierung in verschiedenen Granularitäten. Sobald die segmentierten Teile aus den skalakonditionierten, teilbewussten 3D-Merkmalen erhalten sind, verwenden wir VLMs, um semantische Bezeichnungen für jeden Teil basierend auf den Multi-View-Renderings zuzuweisen. Im Vergleich zu früheren Methoden kann unser SAMPart3D auf den aktuellen groß angelegten 3D-Objektdatensatz Objaverse skalieren und komplexe, nicht alltägliche Objekte verarbeiten. Darüber hinaus tragen wir mit einem neuen Benchmark zur 3D-Teilsegmentierung bei, um den Mangel an Vielfalt und Komplexität von Objekten und Teilen in bestehenden Benchmarks zu adressieren. Experimente zeigen, dass unser SAMPart3D signifikant bessere Leistungen als bestehende Zero-Shot-3D-Teilsegmentierungsmethoden erbringt und verschiedene Anwendungen wie die Bearbeitung auf Teilebene und die interaktive Segmentierung erleichtern kann.
English
3D part segmentation is a crucial and challenging task in 3D perception, playing a vital role in applications such as robotics, 3D generation, and 3D editing. Recent methods harness the powerful Vision Language Models (VLMs) for 2D-to-3D knowledge distillation, achieving zero-shot 3D part segmentation. However, these methods are limited by their reliance on text prompts, which restricts the scalability to large-scale unlabeled datasets and the flexibility in handling part ambiguities. In this work, we introduce SAMPart3D, a scalable zero-shot 3D part segmentation framework that segments any 3D object into semantic parts at multiple granularities, without requiring predefined part label sets as text prompts. For scalability, we use text-agnostic vision foundation models to distill a 3D feature extraction backbone, allowing scaling to large unlabeled 3D datasets to learn rich 3D priors. For flexibility, we distill scale-conditioned part-aware 3D features for 3D part segmentation at multiple granularities. Once the segmented parts are obtained from the scale-conditioned part-aware 3D features, we use VLMs to assign semantic labels to each part based on the multi-view renderings. Compared to previous methods, our SAMPart3D can scale to the recent large-scale 3D object dataset Objaverse and handle complex, non-ordinary objects. Additionally, we contribute a new 3D part segmentation benchmark to address the lack of diversity and complexity of objects and parts in existing benchmarks. Experiments show that our SAMPart3D significantly outperforms existing zero-shot 3D part segmentation methods, and can facilitate various applications such as part-level editing and interactive segmentation.

Summary

AI-Generated Summary

PDF252November 13, 2024