Pandora3D: Комплексная платформа для генерации трехмерных форм и текстур высокого качества
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation
February 20, 2025
Авторы: Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
cs.AI
Аннотация
Данный отчет представляет собой комплексную структуру для создания высококачественных 3D форм и текстур из разнообразных входных данных, включая одиночные изображения, многоплоскостные изображения и текстовые описания. Структура состоит из генерации 3D формы и генерации текстуры. (1). Пайплайн генерации 3D формы использует Вариационный автоэнкодер (VAE) для кодирования неявных 3D геометрий в латентное пространство и диффузионную сеть для генерации латентов, условных по входным данным, с модификациями для увеличения емкости модели. Также исследуется альтернативный подход к генерации сетки, созданной художником (AM), что приводит к многообещающим результатам для более простых геометрий. (2). Генерация текстуры включает многоэтапный процесс, начиная с генерации фронтальных изображений, за которыми следует генерация многоплоскостных изображений, преобразование RGB в PBR текстуру и улучшение текстуры многоплоскостного изображения высокого разрешения. В каждом этапе используется планировщик согласованности, чтобы обеспечить пиксельную согласованность между многоплоскостными текстурами во время вывода, гарантируя бесшовную интеграцию. Данный пайплайн демонстрирует эффективную обработку разнообразных форматов входных данных, используя передовые нейронные архитектуры и новые методологии для создания высококачественного 3D контента. В отчете подробно описана архитектура системы, экспериментальные результаты и потенциальные направления для улучшения и расширения структуры. Исходный код и предварительно обученные веса доступны по ссылке: https://github.com/Tencent/Tencent-XR-3DGen.
English
This report presents a comprehensive framework for generating high-quality 3D
shapes and textures from diverse input prompts, including single images,
multi-view images, and text descriptions. The framework consists of 3D shape
generation and texture generation. (1). The 3D shape generation pipeline
employs a Variational Autoencoder (VAE) to encode implicit 3D geometries into a
latent space and a diffusion network to generate latents conditioned on input
prompts, with modifications to enhance model capacity. An alternative
Artist-Created Mesh (AM) generation approach is also explored, yielding
promising results for simpler geometries. (2). Texture generation involves a
multi-stage process starting with frontal images generation followed by
multi-view images generation, RGB-to-PBR texture conversion, and
high-resolution multi-view texture refinement. A consistency scheduler is
plugged into every stage, to enforce pixel-wise consistency among multi-view
textures during inference, ensuring seamless integration.
The pipeline demonstrates effective handling of diverse input formats,
leveraging advanced neural architectures and novel methodologies to produce
high-quality 3D content. This report details the system architecture,
experimental results, and potential future directions to improve and expand the
framework. The source code and pretrained weights are released at:
https://github.com/Tencent/Tencent-XR-3DGen.Summary
AI-Generated Summary