CaPa: Синтез Carve-n-Paint для эффективной генерации сеток с текстурами 4K.
CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation
January 16, 2025
Авторы: Hwan Heo, Jangyeong Kim, Seongyeong Lee, Jeong A Wi, Junyoung Choi, Sangjun Ahn
cs.AI
Аннотация
Синтез высококачественных 3D-объектов из текстовых или визуальных источников стал центральной задачей в современном генеративном моделировании. Несмотря на многообразие алгоритмов генерации 3D-моделей, они часто сталкиваются с проблемами, такими как несогласованность между видами, медленное время генерации, низкая достоверность и проблемы восстановления поверхности. Хотя некоторые исследования решают некоторые из этих проблем, всеобъемлющее решение остается неясным. В данной статье мы представляем CaPa, фреймворк по вырезанию и раскрашиванию, который эффективно генерирует высококачественные 3D-объекты. CaPa использует двухэтапный процесс, разделяя генерацию геометрии и синтез текстур. Сначала модель диффузии латентного пространства 3D генерирует геометрию под руководством многовидовых входных данных, обеспечивая структурную согласованность между перспективами. Затем, используя новый, независимый от модели Пространственно Разделенный Внимательный Механизм, фреймворк синтезирует текстуры высокого разрешения (до 4K) для заданной геометрии. Кроме того, мы предлагаем алгоритм заполнения затененных областей, основанный на знании 3D-структуры, что приводит к цельным результатам по всей модели. Этот конвейер генерирует высококачественные 3D-объекты менее чем за 30 секунд, предоставляя готовые к использованию результаты для коммерческих приложений. Экспериментальные результаты показывают, что CaPa превосходит как по достоверности текстур, так и по геометрической стабильности, устанавливая новый стандарт для практичной, масштабируемой генерации 3D-объектов.
English
The synthesis of high-quality 3D assets from textual or visual inputs has
become a central objective in modern generative modeling. Despite the
proliferation of 3D generation algorithms, they frequently grapple with
challenges such as multi-view inconsistency, slow generation times, low
fidelity, and surface reconstruction problems. While some studies have
addressed some of these issues, a comprehensive solution remains elusive. In
this paper, we introduce CaPa, a carve-and-paint framework that
generates high-fidelity 3D assets efficiently. CaPa employs a two-stage
process, decoupling geometry generation from texture synthesis. Initially, a 3D
latent diffusion model generates geometry guided by multi-view inputs, ensuring
structural consistency across perspectives. Subsequently, leveraging a novel,
model-agnostic Spatially Decoupled Attention, the framework synthesizes
high-resolution textures (up to 4K) for a given geometry. Furthermore, we
propose a 3D-aware occlusion inpainting algorithm that fills untextured
regions, resulting in cohesive results across the entire model. This pipeline
generates high-quality 3D assets in less than 30 seconds, providing
ready-to-use outputs for commercial applications. Experimental results
demonstrate that CaPa excels in both texture fidelity and geometric stability,
establishing a new standard for practical, scalable 3D asset generation.Summary
AI-Generated Summary