CaPa: 효율적인 4K 텍스처화된 메쉬 생성을 위한 Carve-n-Paint 합성
CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation
January 16, 2025
저자: Hwan Heo, Jangyeong Kim, Seongyeong Lee, Jeong A Wi, Junyoung Choi, Sangjun Ahn
cs.AI
초록
텍스트나 시각적 입력으로부터 고품질 3D 에셋을 합성하는 것은 현대 생성 모델링에서 중요한 목표가 되었습니다. 3D 생성 알고리즘은 증식되었지만, 종종 다중 뷰 불일치, 생성 시간 지연, 낮은 충실도, 표면 재구성 문제 등과 같은 어려움에 직면합니다. 일부 연구는 이러한 문제 중 일부를 다루었지만, 포괄적인 해결책은 아직 찾기 어렵습니다. 본 논문에서는 고품질 3D 에셋을 효율적으로 생성하는 캐브 앤 페인트(CaPa) 프레임워크를 소개합니다. CaPa는 기하 생성과 질감 합성을 분리하는 두 단계 프로세스를 사용합니다. 먼저, 3D 잠재 확산 모델이 다중 뷰 입력에 따라 안내되는 기하를 생성하여 다양한 관점에서의 구조적 일관성을 보장합니다. 이후, 새로운 모델에 중립적인 공간적으로 분리된 어텐션을 활용하여 프레임워크는 주어진 기하에 대해 고해상도 질감(최대 4K)을 합성합니다. 더불어, 우리는 3D 인식 가림막 인페인팅 알고리즘을 제안하여 텍스처가 없는 영역을 채워 전체 모델에 걸쳐 일관된 결과를 얻습니다. 이 파이프라인은 30초 미만의 시간 내에 고품질 3D 에셋을 생성하여 상업용 응용 프로그램에 사용할 수 있는 결과물을 제공합니다. 실험 결과는 CaPa가 질감 충실도와 기하적 안정성 모두에서 우수함을 입증하며, 실용적이고 확장 가능한 3D 에셋 생성을 위한 새로운 표준을 세우고 있음을 보여줍니다.
English
The synthesis of high-quality 3D assets from textual or visual inputs has
become a central objective in modern generative modeling. Despite the
proliferation of 3D generation algorithms, they frequently grapple with
challenges such as multi-view inconsistency, slow generation times, low
fidelity, and surface reconstruction problems. While some studies have
addressed some of these issues, a comprehensive solution remains elusive. In
this paper, we introduce CaPa, a carve-and-paint framework that
generates high-fidelity 3D assets efficiently. CaPa employs a two-stage
process, decoupling geometry generation from texture synthesis. Initially, a 3D
latent diffusion model generates geometry guided by multi-view inputs, ensuring
structural consistency across perspectives. Subsequently, leveraging a novel,
model-agnostic Spatially Decoupled Attention, the framework synthesizes
high-resolution textures (up to 4K) for a given geometry. Furthermore, we
propose a 3D-aware occlusion inpainting algorithm that fills untextured
regions, resulting in cohesive results across the entire model. This pipeline
generates high-quality 3D assets in less than 30 seconds, providing
ready-to-use outputs for commercial applications. Experimental results
demonstrate that CaPa excels in both texture fidelity and geometric stability,
establishing a new standard for practical, scalable 3D asset generation.Summary
AI-Generated Summary