CaPa: Síntese de Esculpir e Pintar para Geração Eficiente de Malhas Texturizadas em 4K
CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation
January 16, 2025
Autores: Hwan Heo, Jangyeong Kim, Seongyeong Lee, Jeong A Wi, Junyoung Choi, Sangjun Ahn
cs.AI
Resumo
A síntese de ativos 3D de alta qualidade a partir de entradas textuais ou visuais tornou-se um objetivo central na modelagem generativa moderna. Apesar da proliferação de algoritmos de geração 3D, eles frequentemente lidam com desafios como inconsistência multi-visual, tempos de geração lentos, baixa fidelidade e problemas de reconstrução de superfície. Embora alguns estudos tenham abordado algumas dessas questões, uma solução abrangente ainda permanece elusiva. Neste artigo, apresentamos CaPa, um framework de esculpir e pintar que gera ativos 3D de alta fidelidade de forma eficiente. CaPa emprega um processo de duas etapas, desacoplando a geração de geometria da síntese de textura. Inicialmente, um modelo de difusão latente 3D gera geometria guiada por entradas multi-visual, garantindo consistência estrutural em diferentes perspectivas. Posteriormente, aproveitando uma nova e model-agnóstica Atenção Espacialmente Desacoplada, o framework sintetiza texturas de alta resolução (até 4K) para uma determinada geometria. Além disso, propomos um algoritmo de preenchimento de oclusão consciente de 3D que preenche regiões sem textura, resultando em resultados coesos em todo o modelo. Esta sequência gera ativos 3D de alta qualidade em menos de 30 segundos, fornecendo saídas prontas para aplicações comerciais. Resultados experimentais demonstram que CaPa se destaca tanto na fidelidade de textura quanto na estabilidade geométrica, estabelecendo um novo padrão para geração prática e escalável de ativos 3D.
English
The synthesis of high-quality 3D assets from textual or visual inputs has
become a central objective in modern generative modeling. Despite the
proliferation of 3D generation algorithms, they frequently grapple with
challenges such as multi-view inconsistency, slow generation times, low
fidelity, and surface reconstruction problems. While some studies have
addressed some of these issues, a comprehensive solution remains elusive. In
this paper, we introduce CaPa, a carve-and-paint framework that
generates high-fidelity 3D assets efficiently. CaPa employs a two-stage
process, decoupling geometry generation from texture synthesis. Initially, a 3D
latent diffusion model generates geometry guided by multi-view inputs, ensuring
structural consistency across perspectives. Subsequently, leveraging a novel,
model-agnostic Spatially Decoupled Attention, the framework synthesizes
high-resolution textures (up to 4K) for a given geometry. Furthermore, we
propose a 3D-aware occlusion inpainting algorithm that fills untextured
regions, resulting in cohesive results across the entire model. This pipeline
generates high-quality 3D assets in less than 30 seconds, providing
ready-to-use outputs for commercial applications. Experimental results
demonstrate that CaPa excels in both texture fidelity and geometric stability,
establishing a new standard for practical, scalable 3D asset generation.Summary
AI-Generated Summary