CaPa: Schnitz-und-Mal-Synthese zur effizienten Erzeugung von 4K-texturierten Meshes
CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation
January 16, 2025
Autoren: Hwan Heo, Jangyeong Kim, Seongyeong Lee, Jeong A Wi, Junyoung Choi, Sangjun Ahn
cs.AI
Zusammenfassung
Die Synthese hochwertiger 3D-Assets aus textuellen oder visuellen Eingaben ist zu einem zentralen Ziel in der modernen generativen Modellierung geworden. Trotz der Verbreitung von 3D-Generierungsalgorithmen kämpfen sie häufig mit Herausforderungen wie Mehrsicht-Inkonsistenzen, langsamen Generierungszeiten, geringer Treue und Oberflächenrekonstruktionsproblemen. Obwohl einige Studien einige dieser Probleme angegangen sind, bleibt eine umfassende Lösung bisher schwer fassbar. In diesem Papier stellen wir CaPa vor, ein Schnitz- und Mal-Framework, das hochwertige 3D-Assets effizient generiert. CaPa verwendet einen zweistufigen Prozess, der die Geometriegenerierung von der Textursynthese entkoppelt. Zunächst generiert ein 3D-Latenzdiffusionsmodell Geometrie, die durch Mehrsichteingaben geleitet wird und so für strukturelle Konsistenz über verschiedene Perspektiven hinweg sorgt. Anschließend, unter Verwendung einer neuartigen, modellagnostischen räumlich entkoppelten Aufmerksamkeit, synthetisiert das Framework hochauflösende Texturen (bis zu 4K) für eine gegebene Geometrie. Darüber hinaus schlagen wir einen 3D-bewussten Okklusions-Inpainting-Algorithmus vor, der untexturierte Bereiche ausfüllt und so zu kohärenten Ergebnissen über das gesamte Modell hinweg führt. Dieser Prozess generiert hochwertige 3D-Assets in weniger als 30 Sekunden und liefert sofort einsatzbereite Ergebnisse für kommerzielle Anwendungen. Experimentelle Ergebnisse zeigen, dass CaPa sowohl in der Texturtreue als auch in der geometrischen Stabilität herausragt und damit einen neuen Standard für praktische, skalierbare 3D-Asset-Generierung etabliert.
English
The synthesis of high-quality 3D assets from textual or visual inputs has
become a central objective in modern generative modeling. Despite the
proliferation of 3D generation algorithms, they frequently grapple with
challenges such as multi-view inconsistency, slow generation times, low
fidelity, and surface reconstruction problems. While some studies have
addressed some of these issues, a comprehensive solution remains elusive. In
this paper, we introduce CaPa, a carve-and-paint framework that
generates high-fidelity 3D assets efficiently. CaPa employs a two-stage
process, decoupling geometry generation from texture synthesis. Initially, a 3D
latent diffusion model generates geometry guided by multi-view inputs, ensuring
structural consistency across perspectives. Subsequently, leveraging a novel,
model-agnostic Spatially Decoupled Attention, the framework synthesizes
high-resolution textures (up to 4K) for a given geometry. Furthermore, we
propose a 3D-aware occlusion inpainting algorithm that fills untextured
regions, resulting in cohesive results across the entire model. This pipeline
generates high-quality 3D assets in less than 30 seconds, providing
ready-to-use outputs for commercial applications. Experimental results
demonstrate that CaPa excels in both texture fidelity and geometric stability,
establishing a new standard for practical, scalable 3D asset generation.Summary
AI-Generated Summary