PartGen: 다중 뷰 확산 모델을 사용한 부분 수준 3D 생성 및 재구성
PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models
December 24, 2024
저자: Minghao Chen, Roman Shapovalov, Iro Laina, Tom Monnier, Jianyuan Wang, David Novotny, Andrea Vedaldi
cs.AI
초록
텍스트 또는 이미지에서 3D 생성기 및 3D 스캐너는 이제 고품질의 형태와 질감을 갖는 3D 에셋을 생성할 수 있습니다. 이러한 에셋은 일반적으로 암시적 신경장, 가우시안 혼합 또는 메쉬와 같이 유용한 구조가 전혀 없는 단일한 융합된 표현으로 구성됩니다. 그러나 대부분의 응용 프로그램 및 창의적인 작업 흐름은 독립적으로 조작할 수 있는 여러 의미 있는 부분으로 이루어진 에셋을 필요로 합니다. 이 간극을 해결하기 위해 우리는 PartGen을 소개합니다. PartGen은 텍스트, 이미지 또는 구조화되지 않은 3D 객체에서 시작하여 의미 있는 부분으로 구성된 3D 객체를 생성하는 혁신적인 접근 방식입니다. 먼저, 생성되거나 렌더링된 3D 객체의 여러 뷰를 제공하면 다중 뷰 확산 모델이 가능성 있는 뷰 일관성 있는 부분 분할을 추출하여 객체를 부분으로 나눕니다. 그런 다음, 두 번째 다중 뷰 확산 모델은 각 부분을 개별적으로 취하여 가려진 부분을 채우고 완료된 뷰를 3D 재구성 네트워크에 공급하여 3D 재구성을 수행합니다. 이 완료 프로세스는 부분이 조화롭게 통합되도록 전체 객체의 맥락을 고려합니다. 생성 완료 모델은 가려진 정보를 보충할 수 있으며, 극단적인 경우 입력 3D 에셋을 기반으로 완전히 보이지 않는 부분을 환각할 수 있습니다. 우리는 생성된 및 실제 3D 에셋에서 우리의 방법을 평가하고 분할 및 부분 추출 기준선을 크게 능가한다는 것을 보여줍니다. 또한 3D 부분 편집과 같은 하류 응용 프로그램을 소개합니다.
English
Text- or image-to-3D generators and 3D scanners can now produce 3D assets
with high-quality shapes and textures. These assets typically consist of a
single, fused representation, like an implicit neural field, a Gaussian
mixture, or a mesh, without any useful structure. However, most applications
and creative workflows require assets to be made of several meaningful parts
that can be manipulated independently. To address this gap, we introduce
PartGen, a novel approach that generates 3D objects composed of meaningful
parts starting from text, an image, or an unstructured 3D object. First, given
multiple views of a 3D object, generated or rendered, a multi-view diffusion
model extracts a set of plausible and view-consistent part segmentations,
dividing the object into parts. Then, a second multi-view diffusion model takes
each part separately, fills in the occlusions, and uses those completed views
for 3D reconstruction by feeding them to a 3D reconstruction network. This
completion process considers the context of the entire object to ensure that
the parts integrate cohesively. The generative completion model can make up for
the information missing due to occlusions; in extreme cases, it can hallucinate
entirely invisible parts based on the input 3D asset. We evaluate our method on
generated and real 3D assets and show that it outperforms segmentation and
part-extraction baselines by a large margin. We also showcase downstream
applications such as 3D part editing.