Trova Qualsiasi Parte in 3D
Find Any Part in 3D
November 20, 2024
Autori: Ziqi Ma, Yisong Yue, Georgia Gkioxari
cs.AI
Abstract
Studiamo la segmentazione di parti in un mondo aperto in 3D: segmentando qualsiasi parte in qualsiasi oggetto basandosi su qualsiasi query di testo. I metodi precedenti sono limitati nelle categorie di oggetti e nei vocabolari delle parti. Recenti progressi nell'ambito dell'IA hanno dimostrato efficaci capacità di riconoscimento in un mondo aperto in 2D. Ispirati da questi sviluppi, proponiamo un modello di predizione diretta per la segmentazione di parti in 3D in un mondo aperto che può essere applicato in zero-shot a qualsiasi oggetto. Il nostro approccio, chiamato Find3D, addestra un modello di embedding di punti di categoria generale su asset 3D su larga scala provenienti da internet senza alcuna annotazione umana. Combina un motore di dati, alimentato da modelli fondamentali per l'annotazione dei dati, con un metodo di addestramento contrastivo. Otteniamo ottime prestazioni e generalizzazione su più dataset, con un miglioramento fino a 3 volte in mIoU rispetto al metodo successivo migliore. Il nostro modello è da 6 a oltre 300 volte più veloce rispetto ai baselines esistenti. Per incoraggiare la ricerca nella segmentazione di parti in 3D in un mondo aperto di categoria generale, rilasciamo anche un benchmark per oggetti e parti generali. Sito del progetto: https://ziqi-ma.github.io/find3dsite/
English
We study open-world part segmentation in 3D: segmenting any part in any
object based on any text query. Prior methods are limited in object categories
and part vocabularies. Recent advances in AI have demonstrated effective
open-world recognition capabilities in 2D. Inspired by this progress, we
propose an open-world, direct-prediction model for 3D part segmentation that
can be applied zero-shot to any object. Our approach, called Find3D, trains a
general-category point embedding model on large-scale 3D assets from the
internet without any human annotation. It combines a data engine, powered by
foundation models for annotating data, with a contrastive training method. We
achieve strong performance and generalization across multiple datasets, with up
to a 3x improvement in mIoU over the next best method. Our model is 6x to over
300x faster than existing baselines. To encourage research in general-category
open-world 3D part segmentation, we also release a benchmark for general
objects and parts. Project website: https://ziqi-ma.github.io/find3dsite/Summary
AI-Generated Summary