GarVerseLOD : Reconstruction haute fidélité de vêtements en 3D à partir d'une seule image en conditions réelles en utilisant un ensemble de données avec des niveaux de détails
GarVerseLOD: High-Fidelity 3D Garment Reconstruction from a Single In-the-Wild Image using a Dataset with Levels of Details
November 5, 2024
Auteurs: Zhongjin Luo, Haolin Liu, Chenghong Li, Wanghao Du, Zirong Jin, Wanhu Sun, Yinyu Nie, Weikai Chen, Xiaoguang Han
cs.AI
Résumé
Les fonctions implicites neuronales ont apporté des avancées impressionnantes à l'état de l'art de la numérisation des humains vêtus à partir de plusieurs ou même d'une seule image. Cependant, malgré les progrès réalisés, les méthodes actuelles ont encore du mal à généraliser à des images inconnues présentant des déformations de vêtements complexes et des poses corporelles variées. Dans ce travail, nous présentons GarVerseLOD, un nouveau jeu de données et cadre conceptuel qui ouvre la voie à une robustesse sans précédent dans la reconstruction de vêtements 3D haute fidélité à partir d'une seule image non contrainte. Inspirés par le récent succès des grands modèles génératifs, nous pensons qu'une clé pour relever le défi de la généralisation réside dans la quantité et la qualité des données de vêtements 3D. Dans cette optique, GarVerseLOD rassemble 6 000 modèles de vêtements de haute qualité avec des détails géométriques fins créés manuellement par des artistes professionnels. En plus de l'échelle des données d'entraînement, nous observons que la présence de granularités géométriques désenchevêtrées peut jouer un rôle important dans l'amélioration de la capacité de généralisation et de l'exactitude de l'inférence du modèle appris. Nous concevons donc GarVerseLOD comme un jeu de données hiérarchique avec des niveaux de détails (LOD), allant de formes stylisées sans détail à des vêtements mélangés à la pose avec des détails alignés sur les pixels. Cela nous permet de rendre ce problème hautement sous-contraint gérable en factorisant l'inférence en tâches plus simples, chacune étant réduite avec un espace de recherche plus restreint. Pour garantir que GarVerseLOD puisse bien généraliser aux images réelles, nous proposons un nouveau paradigme d'étiquetage basé sur des modèles de diffusion conditionnelle pour générer des paires d'images étendues pour chaque modèle de vêtement avec un haut degré de réalisme photographique. Nous évaluons notre méthode sur une quantité massive d'images réelles. Les résultats expérimentaux démontrent que GarVerseLOD peut générer des pièces de vêtement autonomes avec une qualité significativement meilleure que les approches précédentes. Page du projet : https://garverselod.github.io/
English
Neural implicit functions have brought impressive advances to the
state-of-the-art of clothed human digitization from multiple or even single
images. However, despite the progress, current arts still have difficulty
generalizing to unseen images with complex cloth deformation and body poses. In
this work, we present GarVerseLOD, a new dataset and framework that paves the
way to achieving unprecedented robustness in high-fidelity 3D garment
reconstruction from a single unconstrained image. Inspired by the recent
success of large generative models, we believe that one key to addressing the
generalization challenge lies in the quantity and quality of 3D garment data.
Towards this end, GarVerseLOD collects 6,000 high-quality cloth models with
fine-grained geometry details manually created by professional artists. In
addition to the scale of training data, we observe that having disentangled
granularities of geometry can play an important role in boosting the
generalization capability and inference accuracy of the learned model. We hence
craft GarVerseLOD as a hierarchical dataset with levels of details (LOD),
spanning from detail-free stylized shape to pose-blended garment with
pixel-aligned details. This allows us to make this highly under-constrained
problem tractable by factorizing the inference into easier tasks, each narrowed
down with smaller searching space. To ensure GarVerseLOD can generalize well to
in-the-wild images, we propose a novel labeling paradigm based on conditional
diffusion models to generate extensive paired images for each garment model
with high photorealism. We evaluate our method on a massive amount of
in-the-wild images. Experimental results demonstrate that GarVerseLOD can
generate standalone garment pieces with significantly better quality than prior
approaches. Project page: https://garverselod.github.io/Summary
AI-Generated Summary