MVPaint: Diffusione Multi-View Sincronizzata per Dipingere Oggetti 3D
MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D
November 4, 2024
Autori: Wei Cheng, Juncheng Mu, Xianfang Zeng, Xin Chen, Anqi Pang, Chi Zhang, Zhibin Wang, Bin Fu, Gang Yu, Ziwei Liu, Liang Pan
cs.AI
Abstract
Il texturizzazione è un passaggio cruciale nel flusso di produzione di asset 3D, che migliora l'attrattiva visiva e la diversità degli asset 3D. Nonostante i recenti progressi nella generazione Testo-a-Texture (T2T), i metodi esistenti spesso producono risultati scadenti, principalmente a causa di discontinuità locali, incongruenze tra diverse visualizzazioni e della loro forte dipendenza dai risultati dell'UV unwrapping. Per affrontare queste sfide, proponiamo un innovativo framework di texturizzazione 3D di generazione-raffinamento chiamato MVPaint, in grado di generare texture senza soluzione di continuità ad alta risoluzione, enfatizzando la coerenza multi-visualizzazione. MVPaint è principalmente composto da tre moduli chiave. 1) Generazione Sincronizzata Multi-visualizzazione (SMG). Dato un modello di mesh 3D, MVPaint genera prima simultaneamente immagini multi-visualizzazione impiegando un modello SMG, che porta a risultati di texturizzazione grossolani con parti non dipinte a causa di osservazioni mancanti. 2) Riempiemento 3D consapevole dello spazio (S3I). Per garantire una texturizzazione 3D completa, introduciamo il metodo S3I, progettato specificamente per texturizzare efficacemente aree precedentemente non osservate. 3) Perfezionamento UV (UVR). Inoltre, MVPaint impiega un modulo UVR per migliorare la qualità della texture nello spazio UV, che prima esegue una Super-Risoluzione nello spazio UV, seguita da un algoritmo di Smoothing dei Margini consapevole dello spazio per correggere le discontinuità spaziali della texturizzazione causate dall'UV unwrapping. Inoltre, istituiamo due benchmark di valutazione T2T: il benchmark T2T di Objaverse e il benchmark T2T di GSO, basati su selezionati mesh 3D di alta qualità rispettivamente dal dataset di Objaverse e dall'intero dataset di GSO. Estesi risultati sperimentali dimostrano che MVPaint supera i metodi esistenti all'avanguardia. In particolare, MVPaint potrebbe generare texture ad alta fedeltà con minimi problemi di Janus e una coerenza tra visualizzazioni notevolmente migliorata.
English
Texturing is a crucial step in the 3D asset production workflow, which
enhances the visual appeal and diversity of 3D assets. Despite recent
advancements in Text-to-Texture (T2T) generation, existing methods often yield
subpar results, primarily due to local discontinuities, inconsistencies across
multiple views, and their heavy dependence on UV unwrapping outcomes. To tackle
these challenges, we propose a novel generation-refinement 3D texturing
framework called MVPaint, which can generate high-resolution, seamless textures
while emphasizing multi-view consistency. MVPaint mainly consists of three key
modules. 1) Synchronized Multi-view Generation (SMG). Given a 3D mesh model,
MVPaint first simultaneously generates multi-view images by employing an SMG
model, which leads to coarse texturing results with unpainted parts due to
missing observations. 2) Spatial-aware 3D Inpainting (S3I). To ensure complete
3D texturing, we introduce the S3I method, specifically designed to effectively
texture previously unobserved areas. 3) UV Refinement (UVR). Furthermore,
MVPaint employs a UVR module to improve the texture quality in the UV space,
which first performs a UV-space Super-Resolution, followed by a Spatial-aware
Seam-Smoothing algorithm for revising spatial texturing discontinuities caused
by UV unwrapping. Moreover, we establish two T2T evaluation benchmarks: the
Objaverse T2T benchmark and the GSO T2T benchmark, based on selected
high-quality 3D meshes from the Objaverse dataset and the entire GSO dataset,
respectively. Extensive experimental results demonstrate that MVPaint surpasses
existing state-of-the-art methods. Notably, MVPaint could generate
high-fidelity textures with minimal Janus issues and highly enhanced cross-view
consistency.Summary
AI-Generated Summary