ChatPaper.aiChatPaper

MeshCraft: Esplorazione della Generazione Efficiente e Controllabile di Mesh con DiT basati su Flussi

MeshCraft: Exploring Efficient and Controllable Mesh Generation with Flow-based DiTs

March 29, 2025
Autori: Xianglong He, Junyi Chen, Di Huang, Zexiang Liu, Xiaoshui Huang, Wanli Ouyang, Chun Yuan, Yangguang Li
cs.AI

Abstract

Nel dominio della creazione di contenuti 3D, il raggiungimento di una topologia ottimale delle mesh attraverso modelli di intelligenza artificiale è da tempo un obiettivo per gli artisti 3D. Metodi precedenti, come MeshGPT, hanno esplorato la generazione di oggetti 3D pronti per l'uso tramite tecniche auto-regressive sulle mesh. Sebbene questi metodi producano risultati visivamente impressionanti, la loro dipendenza da previsioni token-per-token nel processo auto-regressivo porta a diverse limitazioni significative. Queste includono velocità di generazione estremamente lente e un numero incontrollabile di facce della mesh. In questo articolo, introduciamo MeshCraft, un nuovo framework per la generazione efficiente e controllabile di mesh, che sfrutta la diffusione spaziale continua per generare facce triangolari discrete. Nello specifico, MeshCraft è composto da due componenti principali: 1) un VAE basato su transformer che codifica mesh grezze in token continui a livello di faccia e li decodifica nuovamente nelle mesh originali, e 2) un transformer di diffusione basato su flusso condizionato dal numero di facce, che consente la generazione di mesh 3D di alta qualità con un numero predefinito di facce. Utilizzando il modello di diffusione per la generazione simultanea dell'intera topologia della mesh, MeshCraft raggiunge una generazione di mesh ad alta fedeltà a velocità significativamente più elevate rispetto ai metodi auto-regressivi. In particolare, MeshCraft può generare una mesh con 800 facce in soli 3,2 secondi (35 volte più veloce rispetto alle baseline esistenti). Esperimenti estensivi dimostrano che MeshCraft supera le tecniche all'avanguardia sia nelle valutazioni qualitative che quantitative sul dataset ShapeNet e mostra prestazioni superiori sul dataset Objaverse. Inoltre, si integra perfettamente con le strategie di guida condizionale esistenti, dimostrando il suo potenziale per alleviare gli artisti dal lavoro manuale dispendioso coinvolto nella creazione delle mesh.
English
In the domain of 3D content creation, achieving optimal mesh topology through AI models has long been a pursuit for 3D artists. Previous methods, such as MeshGPT, have explored the generation of ready-to-use 3D objects via mesh auto-regressive techniques. While these methods produce visually impressive results, their reliance on token-by-token predictions in the auto-regressive process leads to several significant limitations. These include extremely slow generation speeds and an uncontrollable number of mesh faces. In this paper, we introduce MeshCraft, a novel framework for efficient and controllable mesh generation, which leverages continuous spatial diffusion to generate discrete triangle faces. Specifically, MeshCraft consists of two core components: 1) a transformer-based VAE that encodes raw meshes into continuous face-level tokens and decodes them back to the original meshes, and 2) a flow-based diffusion transformer conditioned on the number of faces, enabling the generation of high-quality 3D meshes with a predefined number of faces. By utilizing the diffusion model for the simultaneous generation of the entire mesh topology, MeshCraft achieves high-fidelity mesh generation at significantly faster speeds compared to auto-regressive methods. Specifically, MeshCraft can generate an 800-face mesh in just 3.2 seconds (35times faster than existing baselines). Extensive experiments demonstrate that MeshCraft outperforms state-of-the-art techniques in both qualitative and quantitative evaluations on ShapeNet dataset and demonstrates superior performance on Objaverse dataset. Moreover, it integrates seamlessly with existing conditional guidance strategies, showcasing its potential to relieve artists from the time-consuming manual work involved in mesh creation.

Summary

AI-Generated Summary

PDF72April 1, 2025