MVPaint : Diffusion Multi-Vue Synchronisée pour Peindre des Objets en 3D

Résumé

La texturation est une étape cruciale dans le flux de production des actifs 3D, qui améliore l'attrait visuel et la diversité des actifs 3D. Malgré les avancées récentes dans la génération Texte-vers-Texture (T2T), les méthodes existantes donnent souvent des résultats médiocres, principalement en raison de discontinuités locales, d'incohérences entre plusieurs vues, et de leur forte dépendance aux résultats du dépliage UV. Pour relever ces défis, nous proposons un nouveau cadre de texturation 3D de génération-raffinement appelé MVPaint, capable de générer des textures sans couture de haute résolution tout en mettant l'accent sur la cohérence multi-vue. MVPaint se compose principalement de trois modules clés. 1) Génération Multi-vue Synchronisée (SMG). Étant donné un modèle de maillage 3D, MVPaint génère d'abord simultanément des images multi-vues en utilisant un modèle SMG, ce qui conduit à des résultats de texturation grossiers avec des parties non peintes en raison d'observations manquantes. 2) Complétion 3D Spatiale (S3I). Pour garantir une texturation 3D complète, nous introduisons la méthode S3I, spécialement conçue pour texturer efficacement les zones précédemment non observées. 3) Raffinement UV (UVR). De plus, MVPaint utilise un module UVR pour améliorer la qualité de la texture dans l'espace UV, qui effectue d'abord une Super-Résolution dans l'espace UV, suivi d'un algorithme de Lissage de Couture Spatial pour réviser les discontinuités spatiales de texturation causées par le dépliage UV. De plus, nous établissons deux référentiels d'évaluation T2T : le référentiel T2T Objaverse et le référentiel T2T GSO, basés sur des maillages 3D de haute qualité sélectionnés respectivement dans l'ensemble de données Objaverse et l'ensemble de données GSO complet. Des résultats expérimentaux approfondis démontrent que MVPaint surpasse les méthodes existantes de pointe. Notamment, MVPaint pourrait générer des textures haute fidélité avec des problèmes minimaux de Janus et une cohérence améliorée entre les vues.

English

Texturing is a crucial step in the 3D asset production workflow, which enhances the visual appeal and diversity of 3D assets. Despite recent advancements in Text-to-Texture (T2T) generation, existing methods often yield subpar results, primarily due to local discontinuities, inconsistencies across multiple views, and their heavy dependence on UV unwrapping outcomes. To tackle these challenges, we propose a novel generation-refinement 3D texturing framework called MVPaint, which can generate high-resolution, seamless textures while emphasizing multi-view consistency. MVPaint mainly consists of three key modules. 1) Synchronized Multi-view Generation (SMG). Given a 3D mesh model, MVPaint first simultaneously generates multi-view images by employing an SMG model, which leads to coarse texturing results with unpainted parts due to missing observations. 2) Spatial-aware 3D Inpainting (S3I). To ensure complete 3D texturing, we introduce the S3I method, specifically designed to effectively texture previously unobserved areas. 3) UV Refinement (UVR). Furthermore, MVPaint employs a UVR module to improve the texture quality in the UV space, which first performs a UV-space Super-Resolution, followed by a Spatial-aware Seam-Smoothing algorithm for revising spatial texturing discontinuities caused by UV unwrapping. Moreover, we establish two T2T evaluation benchmarks: the Objaverse T2T benchmark and the GSO T2T benchmark, based on selected high-quality 3D meshes from the Objaverse dataset and the entire GSO dataset, respectively. Extensive experimental results demonstrate that MVPaint surpasses existing state-of-the-art methods. Notably, MVPaint could generate high-fidelity textures with minimal Janus issues and highly enhanced cross-view consistency.

MVPaint : Diffusion Multi-Vue Synchronisée pour Peindre des Objets en 3D

MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D

Résumé

Support