CaPa: Snij-en-Schilder Synthese voor Efficiënte Generatie van 4K Getextureerde Meshes
CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation
January 16, 2025
Auteurs: Hwan Heo, Jangyeong Kim, Seongyeong Lee, Jeong A Wi, Junyoung Choi, Sangjun Ahn
cs.AI
Samenvatting
De synthese van hoogwaardige 3D-middelen uit tekstuele of visuele invoer is een centraal doel geworden in moderne generatieve modellering. Ondanks de verscheidenheid aan 3D-generatiealgoritmen, worstelen ze vaak met uitdagingen zoals multi-view inconsistentie, trage generatietijden, lage betrouwbaarheid en oppervlakteherstelproblemen. Hoewel sommige studies enkele van deze kwesties hebben aangepakt, blijft een allesomvattende oplossing ongrijpbaar. In dit artikel introduceren we CaPa, een snij-en-schilderframework dat efficiënt hoogwaardige 3D-middelen genereert. CaPa maakt gebruik van een tweefasenproces, waarbij geometriegeneratie wordt losgekoppeld van textuursynthese. In eerste instantie genereert een 3D latente diffusiemodel geometrie geleid door multi-view invoer, wat zorgt voor structurele consistentie over verschillende perspectieven. Vervolgens, door gebruik te maken van een nieuw, model-agnostisch Ruimtelijk Losgekoppelde Aandacht, synthetiseert het framework texturen met hoge resolutie (tot 4K) voor een gegeven geometrie. Bovendien stellen we een 3D-bewust occlusie-inpaintingalgoritme voor dat ongetextureerde gebieden vult, resulterend in samenhangende resultaten over het hele model. Deze pijplijn genereert hoogwaardige 3D-middelen in minder dan 30 seconden, waardoor direct bruikbare resultaten voor commerciële toepassingen worden geleverd. Experimentele resultaten tonen aan dat CaPa uitblinkt in zowel textuurbetrouwbaarheid als geometrische stabiliteit, waarmee het een nieuwe standaard vestigt voor praktische, schaalbare 3D-middelengeneratie.
English
The synthesis of high-quality 3D assets from textual or visual inputs has
become a central objective in modern generative modeling. Despite the
proliferation of 3D generation algorithms, they frequently grapple with
challenges such as multi-view inconsistency, slow generation times, low
fidelity, and surface reconstruction problems. While some studies have
addressed some of these issues, a comprehensive solution remains elusive. In
this paper, we introduce CaPa, a carve-and-paint framework that
generates high-fidelity 3D assets efficiently. CaPa employs a two-stage
process, decoupling geometry generation from texture synthesis. Initially, a 3D
latent diffusion model generates geometry guided by multi-view inputs, ensuring
structural consistency across perspectives. Subsequently, leveraging a novel,
model-agnostic Spatially Decoupled Attention, the framework synthesizes
high-resolution textures (up to 4K) for a given geometry. Furthermore, we
propose a 3D-aware occlusion inpainting algorithm that fills untextured
regions, resulting in cohesive results across the entire model. This pipeline
generates high-quality 3D assets in less than 30 seconds, providing
ready-to-use outputs for commercial applications. Experimental results
demonstrate that CaPa excels in both texture fidelity and geometric stability,
establishing a new standard for practical, scalable 3D asset generation.Summary
AI-Generated Summary