Kiss3DGen: Перепрофилирование моделей диффузии изображений для генерации 3D-ассетов
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation
March 3, 2025
Авторы: Jiantao Lin, Xin Yang, Meixi Chen, Yingjie Xu, Dongyu Yan, Leyi Wu, Xinli Xu, Lie XU, Shunsi Zhang, Ying-Cong Chen
cs.AI
Аннотация
Диффузионные модели достигли значительных успехов в генерации 2D-изображений. Однако качество и обобщаемость генерации 3D-контента остаются ограниченными. Современные методы часто требуют крупномасштабных 3D-активов для обучения, которые сложно собрать. В данной работе мы представляем Kiss3DGen (Keep It Simple and Straightforward in 3D Generation) — эффективный фреймворк для генерации, редактирования и улучшения 3D-объектов, перепрофилируя хорошо обученную диффузионную модель для 2D-изображений в целях 3D-генерации. В частности, мы дообучаем диффузионную модель для генерации «3D Bundle Image» — мозаичного представления, состоящего из многовидовых изображений и соответствующих им карт нормалей. Карты нормалей затем используются для реконструкции 3D-сетки, а многовидовые изображения обеспечивают текстурирование, что приводит к созданию полной 3D-модели. Этот простой метод эффективно преобразует задачу 3D-генерации в задачу генерации 2D-изображений, максимально используя знания, заложенные в предобученных диффузионных моделях. Кроме того, мы показываем, что наша модель Kiss3DGen совместима с различными техниками диффузионных моделей, что позволяет реализовать такие продвинутые функции, как редактирование 3D-объектов, улучшение сетки и текстуры и т.д. В ходе обширных экспериментов мы демонстрируем эффективность нашего подхода, показывая его способность эффективно создавать высококачественные 3D-модели.
English
Diffusion models have achieved great success in generating 2D images.
However, the quality and generalizability of 3D content generation remain
limited. State-of-the-art methods often require large-scale 3D assets for
training, which are challenging to collect. In this work, we introduce
Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), an efficient
framework for generating, editing, and enhancing 3D objects by repurposing a
well-trained 2D image diffusion model for 3D generation. Specifically, we
fine-tune a diffusion model to generate ''3D Bundle Image'', a tiled
representation composed of multi-view images and their corresponding normal
maps. The normal maps are then used to reconstruct a 3D mesh, and the
multi-view images provide texture mapping, resulting in a complete 3D model.
This simple method effectively transforms the 3D generation problem into a 2D
image generation task, maximizing the utilization of knowledge in pretrained
diffusion models. Furthermore, we demonstrate that our Kiss3DGen model is
compatible with various diffusion model techniques, enabling advanced features
such as 3D editing, mesh and texture enhancement, etc. Through extensive
experiments, we demonstrate the effectiveness of our approach, showcasing its
ability to produce high-quality 3D models efficiently.Summary
AI-Generated Summary