CaPa: Snij-en-Schilder Synthese voor Efficiënte Generatie van 4K Getextureerde Meshes

CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation

January 16, 2025
Auteurs: Hwan Heo, Jangyeong Kim, Seongyeong Lee, Jeong A Wi, Junyoung Choi, Sangjun Ahn
cs.AI

Samenvatting

De synthese van hoogwaardige 3D-middelen uit tekstuele of visuele invoer is een centraal doel geworden in moderne generatieve modellering. Ondanks de verscheidenheid aan 3D-generatiealgoritmen, worstelen ze vaak met uitdagingen zoals multi-view inconsistentie, trage generatietijden, lage betrouwbaarheid en oppervlakteherstelproblemen. Hoewel sommige studies enkele van deze kwesties hebben aangepakt, blijft een allesomvattende oplossing ongrijpbaar. In dit artikel introduceren we CaPa, een snij-en-schilderframework dat efficiënt hoogwaardige 3D-middelen genereert. CaPa maakt gebruik van een tweefasenproces, waarbij geometriegeneratie wordt losgekoppeld van textuursynthese. In eerste instantie genereert een 3D latente diffusiemodel geometrie geleid door multi-view invoer, wat zorgt voor structurele consistentie over verschillende perspectieven. Vervolgens, door gebruik te maken van een nieuw, model-agnostisch Ruimtelijk Losgekoppelde Aandacht, synthetiseert het framework texturen met hoge resolutie (tot 4K) voor een gegeven geometrie. Bovendien stellen we een 3D-bewust occlusie-inpaintingalgoritme voor dat ongetextureerde gebieden vult, resulterend in samenhangende resultaten over het hele model. Deze pijplijn genereert hoogwaardige 3D-middelen in minder dan 30 seconden, waardoor direct bruikbare resultaten voor commerciële toepassingen worden geleverd. Experimentele resultaten tonen aan dat CaPa uitblinkt in zowel textuurbetrouwbaarheid als geometrische stabiliteit, waarmee het een nieuwe standaard vestigt voor praktische, schaalbare 3D-middelengeneratie.
English
The synthesis of high-quality 3D assets from textual or visual inputs has become a central objective in modern generative modeling. Despite the proliferation of 3D generation algorithms, they frequently grapple with challenges such as multi-view inconsistency, slow generation times, low fidelity, and surface reconstruction problems. While some studies have addressed some of these issues, a comprehensive solution remains elusive. In this paper, we introduce CaPa, a carve-and-paint framework that generates high-fidelity 3D assets efficiently. CaPa employs a two-stage process, decoupling geometry generation from texture synthesis. Initially, a 3D latent diffusion model generates geometry guided by multi-view inputs, ensuring structural consistency across perspectives. Subsequently, leveraging a novel, model-agnostic Spatially Decoupled Attention, the framework synthesizes high-resolution textures (up to 4K) for a given geometry. Furthermore, we propose a 3D-aware occlusion inpainting algorithm that fills untextured regions, resulting in cohesive results across the entire model. This pipeline generates high-quality 3D assets in less than 30 seconds, providing ready-to-use outputs for commercial applications. Experimental results demonstrate that CaPa excels in both texture fidelity and geometric stability, establishing a new standard for practical, scalable 3D asset generation.

Summary

AI-Generated Summary

PDF103January 17, 2025