CaPa: Schnitz-und-Mal-Synthese zur effizienten Erzeugung von 4K-texturierten Meshes

Zusammenfassung

Die Synthese hochwertiger 3D-Assets aus textuellen oder visuellen Eingaben ist zu einem zentralen Ziel in der modernen generativen Modellierung geworden. Trotz der Verbreitung von 3D-Generierungsalgorithmen kämpfen sie häufig mit Herausforderungen wie Mehrsicht-Inkonsistenzen, langsamen Generierungszeiten, geringer Treue und Oberflächenrekonstruktionsproblemen. Obwohl einige Studien einige dieser Probleme angegangen sind, bleibt eine umfassende Lösung bisher schwer fassbar. In diesem Papier stellen wir CaPa vor, ein Schnitz- und Mal-Framework, das hochwertige 3D-Assets effizient generiert. CaPa verwendet einen zweistufigen Prozess, der die Geometriegenerierung von der Textursynthese entkoppelt. Zunächst generiert ein 3D-Latenzdiffusionsmodell Geometrie, die durch Mehrsichteingaben geleitet wird und so für strukturelle Konsistenz über verschiedene Perspektiven hinweg sorgt. Anschließend, unter Verwendung einer neuartigen, modellagnostischen räumlich entkoppelten Aufmerksamkeit, synthetisiert das Framework hochauflösende Texturen (bis zu 4K) für eine gegebene Geometrie. Darüber hinaus schlagen wir einen 3D-bewussten Okklusions-Inpainting-Algorithmus vor, der untexturierte Bereiche ausfüllt und so zu kohärenten Ergebnissen über das gesamte Modell hinweg führt. Dieser Prozess generiert hochwertige 3D-Assets in weniger als 30 Sekunden und liefert sofort einsatzbereite Ergebnisse für kommerzielle Anwendungen. Experimentelle Ergebnisse zeigen, dass CaPa sowohl in der Texturtreue als auch in der geometrischen Stabilität herausragt und damit einen neuen Standard für praktische, skalierbare 3D-Asset-Generierung etabliert.

English

The synthesis of high-quality 3D assets from textual or visual inputs has become a central objective in modern generative modeling. Despite the proliferation of 3D generation algorithms, they frequently grapple with challenges such as multi-view inconsistency, slow generation times, low fidelity, and surface reconstruction problems. While some studies have addressed some of these issues, a comprehensive solution remains elusive. In this paper, we introduce CaPa, a carve-and-paint framework that generates high-fidelity 3D assets efficiently. CaPa employs a two-stage process, decoupling geometry generation from texture synthesis. Initially, a 3D latent diffusion model generates geometry guided by multi-view inputs, ensuring structural consistency across perspectives. Subsequently, leveraging a novel, model-agnostic Spatially Decoupled Attention, the framework synthesizes high-resolution textures (up to 4K) for a given geometry. Furthermore, we propose a 3D-aware occlusion inpainting algorithm that fills untextured regions, resulting in cohesive results across the entire model. This pipeline generates high-quality 3D assets in less than 30 seconds, providing ready-to-use outputs for commercial applications. Experimental results demonstrate that CaPa excels in both texture fidelity and geometric stability, establishing a new standard for practical, scalable 3D asset generation.

CaPa: Schnitz-und-Mal-Synthese zur effizienten Erzeugung von 4K-texturierten Meshes

CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation

Zusammenfassung

Support