TEXGen: un modello generativo a diffusione per le texture a maglia
TEXGen: a Generative Diffusion Model for Mesh Textures
November 22, 2024
Autori: Xin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
Abstract
Sebbene le mappe di texture di alta qualità siano essenziali per la resa realistica degli asset 3D, pochi studi hanno esplorato l'apprendimento direttamente nello spazio delle texture, in particolare su set di dati su larga scala. In questo lavoro, ci discostiamo dall'approccio convenzionale che si basa su modelli di diffusione 2D preaddestrati per l'ottimizzazione delle texture 3D al momento del test. Invece, ci concentriamo sul problema fondamentale dell'apprendimento nello spazio delle texture UV stesso. Per la prima volta, addestriamo un ampio modello di diffusione in grado di generare direttamente mappe di texture ad alta risoluzione in modo feed-forward. Per facilitare un apprendimento efficiente negli spazi UV ad alta risoluzione, proponiamo un'architettura di rete scalabile che interseca convoluzioni sulle mappe UV con strati di attenzione sui cloud di punti. Sfruttando questo design architetturale, addestriamo un modello di diffusione con 700 milioni di parametri in grado di generare mappe di texture UV guidate da prompt di testo e immagini a singola vista. Una volta addestrato, il nostro modello supporta naturalmente varie applicazioni estese, tra cui il completamento di texture guidato dal testo, il completamento di texture a vista sparuta e la sintesi di texture guidata dal testo. La pagina del progetto si trova su http://cvmi-lab.github.io/TEXGen/.
English
While high-quality texture maps are essential for realistic 3D asset
rendering, few studies have explored learning directly in the texture space,
especially on large-scale datasets. In this work, we depart from the
conventional approach of relying on pre-trained 2D diffusion models for
test-time optimization of 3D textures. Instead, we focus on the fundamental
problem of learning in the UV texture space itself. For the first time, we
train a large diffusion model capable of directly generating high-resolution
texture maps in a feed-forward manner. To facilitate efficient learning in
high-resolution UV spaces, we propose a scalable network architecture that
interleaves convolutions on UV maps with attention layers on point clouds.
Leveraging this architectural design, we train a 700 million parameter
diffusion model that can generate UV texture maps guided by text prompts and
single-view images. Once trained, our model naturally supports various extended
applications, including text-guided texture inpainting, sparse-view texture
completion, and text-driven texture synthesis. Project page is at
http://cvmi-lab.github.io/TEXGen/.Summary
AI-Generated Summary