CaPa: Síntese de Esculpir e Pintar para Geração Eficiente de Malhas Texturizadas em 4K

Resumo

A síntese de ativos 3D de alta qualidade a partir de entradas textuais ou visuais tornou-se um objetivo central na modelagem generativa moderna. Apesar da proliferação de algoritmos de geração 3D, eles frequentemente lidam com desafios como inconsistência multi-visual, tempos de geração lentos, baixa fidelidade e problemas de reconstrução de superfície. Embora alguns estudos tenham abordado algumas dessas questões, uma solução abrangente ainda permanece elusiva. Neste artigo, apresentamos CaPa, um framework de esculpir e pintar que gera ativos 3D de alta fidelidade de forma eficiente. CaPa emprega um processo de duas etapas, desacoplando a geração de geometria da síntese de textura. Inicialmente, um modelo de difusão latente 3D gera geometria guiada por entradas multi-visual, garantindo consistência estrutural em diferentes perspectivas. Posteriormente, aproveitando uma nova e model-agnóstica Atenção Espacialmente Desacoplada, o framework sintetiza texturas de alta resolução (até 4K) para uma determinada geometria. Além disso, propomos um algoritmo de preenchimento de oclusão consciente de 3D que preenche regiões sem textura, resultando em resultados coesos em todo o modelo. Esta sequência gera ativos 3D de alta qualidade em menos de 30 segundos, fornecendo saídas prontas para aplicações comerciais. Resultados experimentais demonstram que CaPa se destaca tanto na fidelidade de textura quanto na estabilidade geométrica, estabelecendo um novo padrão para geração prática e escalável de ativos 3D.

English

The synthesis of high-quality 3D assets from textual or visual inputs has become a central objective in modern generative modeling. Despite the proliferation of 3D generation algorithms, they frequently grapple with challenges such as multi-view inconsistency, slow generation times, low fidelity, and surface reconstruction problems. While some studies have addressed some of these issues, a comprehensive solution remains elusive. In this paper, we introduce CaPa, a carve-and-paint framework that generates high-fidelity 3D assets efficiently. CaPa employs a two-stage process, decoupling geometry generation from texture synthesis. Initially, a 3D latent diffusion model generates geometry guided by multi-view inputs, ensuring structural consistency across perspectives. Subsequently, leveraging a novel, model-agnostic Spatially Decoupled Attention, the framework synthesizes high-resolution textures (up to 4K) for a given geometry. Furthermore, we propose a 3D-aware occlusion inpainting algorithm that fills untextured regions, resulting in cohesive results across the entire model. This pipeline generates high-quality 3D assets in less than 30 seconds, providing ready-to-use outputs for commercial applications. Experimental results demonstrate that CaPa excels in both texture fidelity and geometric stability, establishing a new standard for practical, scalable 3D asset generation.

CaPa: Síntese de Esculpir e Pintar para Geração Eficiente de Malhas Texturizadas em 4K

CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation

Resumo

Summary

Support