PartGen: パーツレベルの3D生成と再構築におけるマルチビュー拡散モデル
PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models
December 24, 2024
著者: Minghao Chen, Roman Shapovalov, Iro Laina, Tom Monnier, Jianyuan Wang, David Novotny, Andrea Vedaldi
cs.AI
要旨
テキストまたは画像から3Dジェネレーターや3Dスキャナーは、高品質の形状とテクスチャを持つ3Dアセットを生成できるようになりました。これらのアセットは通常、暗黙のニューラルフィールド、ガウス混合、またはメッシュなどのような単一の融合表現で構成されており、有用な構造を持っていません。しかし、ほとんどのアプリケーションやクリエイティブなワークフローでは、独立して操作できるいくつかの意味のある部分から構成されたアセットが必要です。このギャップに対処するために、私たちはPartGenを導入します。PartGenは、テキスト、画像、または非構造化された3Dオブジェクトから始めて、意味のある部分で構成された3Dオブジェクトを生成する革新的なアプローチです。まず、生成またはレンダリングされた3Dオブジェクトの複数のビューを与えると、マルチビュー拡散モデルが、オブジェクトを部分に分割するための一連の可能性のあるビュー整合的な部分セグメンテーションを抽出します。次に、2番目のマルチビュー拡散モデルがそれぞれの部分を個別に取り、遮蔽部分を補完し、それらの完成したビューを3D再構築ネットワークに供給して3D再構築を行います。この補完プロセスは、部分が一体となるように、全体のオブジェクトのコンテキストを考慮します。生成補完モデルは、遮蔽による情報の欠落を補うことができ、極端な場合には、入力された3Dアセットに基づいて完全に見えない部分を幻想することができます。私たちの手法を生成された3Dアセットや実際の3Dアセットで評価し、セグメンテーションや部分抽出のベースラインを大きく上回ることを示します。また、3D部分編集などの下流アプリケーションを紹介します。
English
Text- or image-to-3D generators and 3D scanners can now produce 3D assets
with high-quality shapes and textures. These assets typically consist of a
single, fused representation, like an implicit neural field, a Gaussian
mixture, or a mesh, without any useful structure. However, most applications
and creative workflows require assets to be made of several meaningful parts
that can be manipulated independently. To address this gap, we introduce
PartGen, a novel approach that generates 3D objects composed of meaningful
parts starting from text, an image, or an unstructured 3D object. First, given
multiple views of a 3D object, generated or rendered, a multi-view diffusion
model extracts a set of plausible and view-consistent part segmentations,
dividing the object into parts. Then, a second multi-view diffusion model takes
each part separately, fills in the occlusions, and uses those completed views
for 3D reconstruction by feeding them to a 3D reconstruction network. This
completion process considers the context of the entire object to ensure that
the parts integrate cohesively. The generative completion model can make up for
the information missing due to occlusions; in extreme cases, it can hallucinate
entirely invisible parts based on the input 3D asset. We evaluate our method on
generated and real 3D assets and show that it outperforms segmentation and
part-extraction baselines by a large margin. We also showcase downstream
applications such as 3D part editing.Summary
AI-Generated Summary