ChatPaper.aiChatPaper

PartGen: パーツレベルの3D生成と再構築におけるマルチビュー拡散モデル

PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models

December 24, 2024
著者: Minghao Chen, Roman Shapovalov, Iro Laina, Tom Monnier, Jianyuan Wang, David Novotny, Andrea Vedaldi
cs.AI

要旨

テキストまたは画像から3Dジェネレーターや3Dスキャナーは、高品質の形状とテクスチャを持つ3Dアセットを生成できるようになりました。これらのアセットは通常、暗黙のニューラルフィールド、ガウス混合、またはメッシュなどのような単一の融合表現で構成されており、有用な構造を持っていません。しかし、ほとんどのアプリケーションやクリエイティブなワークフローでは、独立して操作できるいくつかの意味のある部分から構成されたアセットが必要です。このギャップに対処するために、私たちはPartGenを導入します。PartGenは、テキスト、画像、または非構造化された3Dオブジェクトから始めて、意味のある部分で構成された3Dオブジェクトを生成する革新的なアプローチです。まず、生成またはレンダリングされた3Dオブジェクトの複数のビューを与えると、マルチビュー拡散モデルが、オブジェクトを部分に分割するための一連の可能性のあるビュー整合的な部分セグメンテーションを抽出します。次に、2番目のマルチビュー拡散モデルがそれぞれの部分を個別に取り、遮蔽部分を補完し、それらの完成したビューを3D再構築ネットワークに供給して3D再構築を行います。この補完プロセスは、部分が一体となるように、全体のオブジェクトのコンテキストを考慮します。生成補完モデルは、遮蔽による情報の欠落を補うことができ、極端な場合には、入力された3Dアセットに基づいて完全に見えない部分を幻想することができます。私たちの手法を生成された3Dアセットや実際の3Dアセットで評価し、セグメンテーションや部分抽出のベースラインを大きく上回ることを示します。また、3D部分編集などの下流アプリケーションを紹介します。
English
Text- or image-to-3D generators and 3D scanners can now produce 3D assets with high-quality shapes and textures. These assets typically consist of a single, fused representation, like an implicit neural field, a Gaussian mixture, or a mesh, without any useful structure. However, most applications and creative workflows require assets to be made of several meaningful parts that can be manipulated independently. To address this gap, we introduce PartGen, a novel approach that generates 3D objects composed of meaningful parts starting from text, an image, or an unstructured 3D object. First, given multiple views of a 3D object, generated or rendered, a multi-view diffusion model extracts a set of plausible and view-consistent part segmentations, dividing the object into parts. Then, a second multi-view diffusion model takes each part separately, fills in the occlusions, and uses those completed views for 3D reconstruction by feeding them to a 3D reconstruction network. This completion process considers the context of the entire object to ensure that the parts integrate cohesively. The generative completion model can make up for the information missing due to occlusions; in extreme cases, it can hallucinate entirely invisible parts based on the input 3D asset. We evaluate our method on generated and real 3D assets and show that it outperforms segmentation and part-extraction baselines by a large margin. We also showcase downstream applications such as 3D part editing.

Summary

AI-Generated Summary

PDF182December 25, 2024