SAMPart3D: 3D 객체에서 임의의 부분 세분화

SAMPart3D: Segment Any Part in 3D Objects

November 11, 2024
저자: Yunhan Yang, Yukun Huang, Yuan-Chen Guo, Liangjun Lu, Xiaoyang Wu, Edmund Y. Lam, Yan-Pei Cao, Xihui Liu
cs.AI

초록

3D 부분 분할은 로봇공학, 3D 생성 및 3D 편집과 같은 응용 프로그램에서 중요한 역할을 하는 3D 인식에서 중요하고 어려운 작업입니다. 최근의 방법은 강력한 Vision Language Models (VLMs)를 활용하여 2D에서 3D로 지식을 전달하여 제로샷 3D 부분 분할을 달성합니다. 그러나 이러한 방법은 텍스트 프롬프트에 의존하므로 대규모 미분류 데이터셋에 대한 확장성과 부분 모호성 처리의 유연성이 제한됩니다. 본 연구에서는 사전 정의된 부분 레이블 세트를 텍스트 프롬프트로 요구하지 않고 어떠한 3D 객체도 여러 가지 세분화 수준에서 의미 있는 부분으로 분할하는 확장 가능한 제로샷 3D 부분 분할 프레임워크인 SAMPart3D를 소개합니다. 확장성을 위해 텍스트에 중립적인 비전 기반 모델을 사용하여 3D 특징 추출 백본을 정제하여 대규모 미분류 3D 데이터셋으로 확장하여 풍부한 3D 사전을 학습합니다. 유연성을 위해 스케일 조건화된 부분 인식 3D 특징을 정제하여 여러 가지 세분화 수준에서 3D 부분 분할을 수행합니다. 스케일 조건화된 부분 인식 3D 특징에서 분할된 부분을 얻은 후 다중 뷰 렌더링을 기반으로 VLMs를 사용하여 각 부분에 의미 있는 레이블을 할당합니다. 이전 방법과 비교하여 SAMPart3D는 최근의 대규모 3D 객체 데이터셋 Objaverse로 확장되어 복잡하고 일반적이지 않은 객체를 처리할 수 있습니다. 또한, 기존의 벤치마크에서 객체 및 부분의 다양성과 복잡성 부족을 해결하기 위해 새로운 3D 부분 분할 벤치마크를 제공합니다. 실험 결과, SAMPart3D는 기존의 제로샷 3D 부분 분할 방법보다 효과적이며 부분 수준 편집 및 상호 작용 분할과 같은 다양한 응용 프로그램을 용이하게 할 수 있음을 보여줍니다.
English
3D part segmentation is a crucial and challenging task in 3D perception, playing a vital role in applications such as robotics, 3D generation, and 3D editing. Recent methods harness the powerful Vision Language Models (VLMs) for 2D-to-3D knowledge distillation, achieving zero-shot 3D part segmentation. However, these methods are limited by their reliance on text prompts, which restricts the scalability to large-scale unlabeled datasets and the flexibility in handling part ambiguities. In this work, we introduce SAMPart3D, a scalable zero-shot 3D part segmentation framework that segments any 3D object into semantic parts at multiple granularities, without requiring predefined part label sets as text prompts. For scalability, we use text-agnostic vision foundation models to distill a 3D feature extraction backbone, allowing scaling to large unlabeled 3D datasets to learn rich 3D priors. For flexibility, we distill scale-conditioned part-aware 3D features for 3D part segmentation at multiple granularities. Once the segmented parts are obtained from the scale-conditioned part-aware 3D features, we use VLMs to assign semantic labels to each part based on the multi-view renderings. Compared to previous methods, our SAMPart3D can scale to the recent large-scale 3D object dataset Objaverse and handle complex, non-ordinary objects. Additionally, we contribute a new 3D part segmentation benchmark to address the lack of diversity and complexity of objects and parts in existing benchmarks. Experiments show that our SAMPart3D significantly outperforms existing zero-shot 3D part segmentation methods, and can facilitate various applications such as part-level editing and interactive segmentation.

Summary

AI-Generated Summary

PDF252November 13, 2024