CaPa: Синтез Carve-n-Paint для эффективной генерации сеток с текстурами 4K.

Аннотация

Синтез высококачественных 3D-объектов из текстовых или визуальных источников стал центральной задачей в современном генеративном моделировании. Несмотря на многообразие алгоритмов генерации 3D-моделей, они часто сталкиваются с проблемами, такими как несогласованность между видами, медленное время генерации, низкая достоверность и проблемы восстановления поверхности. Хотя некоторые исследования решают некоторые из этих проблем, всеобъемлющее решение остается неясным. В данной статье мы представляем CaPa, фреймворк по вырезанию и раскрашиванию, который эффективно генерирует высококачественные 3D-объекты. CaPa использует двухэтапный процесс, разделяя генерацию геометрии и синтез текстур. Сначала модель диффузии латентного пространства 3D генерирует геометрию под руководством многовидовых входных данных, обеспечивая структурную согласованность между перспективами. Затем, используя новый, независимый от модели Пространственно Разделенный Внимательный Механизм, фреймворк синтезирует текстуры высокого разрешения (до 4K) для заданной геометрии. Кроме того, мы предлагаем алгоритм заполнения затененных областей, основанный на знании 3D-структуры, что приводит к цельным результатам по всей модели. Этот конвейер генерирует высококачественные 3D-объекты менее чем за 30 секунд, предоставляя готовые к использованию результаты для коммерческих приложений. Экспериментальные результаты показывают, что CaPa превосходит как по достоверности текстур, так и по геометрической стабильности, устанавливая новый стандарт для практичной, масштабируемой генерации 3D-объектов.

English

The synthesis of high-quality 3D assets from textual or visual inputs has become a central objective in modern generative modeling. Despite the proliferation of 3D generation algorithms, they frequently grapple with challenges such as multi-view inconsistency, slow generation times, low fidelity, and surface reconstruction problems. While some studies have addressed some of these issues, a comprehensive solution remains elusive. In this paper, we introduce CaPa, a carve-and-paint framework that generates high-fidelity 3D assets efficiently. CaPa employs a two-stage process, decoupling geometry generation from texture synthesis. Initially, a 3D latent diffusion model generates geometry guided by multi-view inputs, ensuring structural consistency across perspectives. Subsequently, leveraging a novel, model-agnostic Spatially Decoupled Attention, the framework synthesizes high-resolution textures (up to 4K) for a given geometry. Furthermore, we propose a 3D-aware occlusion inpainting algorithm that fills untextured regions, resulting in cohesive results across the entire model. This pipeline generates high-quality 3D assets in less than 30 seconds, providing ready-to-use outputs for commercial applications. Experimental results demonstrate that CaPa excels in both texture fidelity and geometric stability, establishing a new standard for practical, scalable 3D asset generation.

CaPa: Синтез Carve-n-Paint для эффективной генерации сеток с текстурами 4K.

CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation

Аннотация

Summary

Support