ChatPaper.aiChatPaper

Pandora3D: Комплексная платформа для генерации трехмерных форм и текстур высокого качества

Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

February 20, 2025
Авторы: Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
cs.AI

Аннотация

Данный отчет представляет собой комплексную структуру для создания высококачественных 3D форм и текстур из разнообразных входных данных, включая одиночные изображения, многоплоскостные изображения и текстовые описания. Структура состоит из генерации 3D формы и генерации текстуры. (1). Пайплайн генерации 3D формы использует Вариационный автоэнкодер (VAE) для кодирования неявных 3D геометрий в латентное пространство и диффузионную сеть для генерации латентов, условных по входным данным, с модификациями для увеличения емкости модели. Также исследуется альтернативный подход к генерации сетки, созданной художником (AM), что приводит к многообещающим результатам для более простых геометрий. (2). Генерация текстуры включает многоэтапный процесс, начиная с генерации фронтальных изображений, за которыми следует генерация многоплоскостных изображений, преобразование RGB в PBR текстуру и улучшение текстуры многоплоскостного изображения высокого разрешения. В каждом этапе используется планировщик согласованности, чтобы обеспечить пиксельную согласованность между многоплоскостными текстурами во время вывода, гарантируя бесшовную интеграцию. Данный пайплайн демонстрирует эффективную обработку разнообразных форматов входных данных, используя передовые нейронные архитектуры и новые методологии для создания высококачественного 3D контента. В отчете подробно описана архитектура системы, экспериментальные результаты и потенциальные направления для улучшения и расширения структуры. Исходный код и предварительно обученные веса доступны по ссылке: https://github.com/Tencent/Tencent-XR-3DGen.
English
This report presents a comprehensive framework for generating high-quality 3D shapes and textures from diverse input prompts, including single images, multi-view images, and text descriptions. The framework consists of 3D shape generation and texture generation. (1). The 3D shape generation pipeline employs a Variational Autoencoder (VAE) to encode implicit 3D geometries into a latent space and a diffusion network to generate latents conditioned on input prompts, with modifications to enhance model capacity. An alternative Artist-Created Mesh (AM) generation approach is also explored, yielding promising results for simpler geometries. (2). Texture generation involves a multi-stage process starting with frontal images generation followed by multi-view images generation, RGB-to-PBR texture conversion, and high-resolution multi-view texture refinement. A consistency scheduler is plugged into every stage, to enforce pixel-wise consistency among multi-view textures during inference, ensuring seamless integration. The pipeline demonstrates effective handling of diverse input formats, leveraging advanced neural architectures and novel methodologies to produce high-quality 3D content. This report details the system architecture, experimental results, and potential future directions to improve and expand the framework. The source code and pretrained weights are released at: https://github.com/Tencent/Tencent-XR-3DGen.

Summary

AI-Generated Summary

PDF52February 25, 2025