GarVerseLOD: Hochauflösende 3D-Gewandrekonstruktion aus einem einzigen In-the-Wild-Bild unter Verwendung eines Datensatzes mit verschiedenen Detailebenen
GarVerseLOD: High-Fidelity 3D Garment Reconstruction from a Single In-the-Wild Image using a Dataset with Levels of Details
November 5, 2024
Autoren: Zhongjin Luo, Haolin Liu, Chenghong Li, Wanghao Du, Zirong Jin, Wanhu Sun, Yinyu Nie, Weikai Chen, Xiaoguang Han
cs.AI
Zusammenfassung
Neuronale implizite Funktionen haben beeindruckende Fortschritte im Stand der Technik der digitalen Erfassung bekleideter menschlicher Körper aus mehreren oder sogar einzelnen Bildern gebracht. Trotz des Fortschritts haben aktuelle Ansätze immer noch Schwierigkeiten, sich auf unbekannte Bilder mit komplexer Stoffdeformation und Körperhaltungen zu verallgemeinern. In dieser Arbeit präsentieren wir GarVerseLOD, einen neuen Datensatz und ein Framework, das den Weg ebnet, eine beispiellose Robustheit bei der hochwertigen 3D-Kleidungsrekonstruktion aus einem einzigen unbeschränkten Bild zu erreichen. Inspiriert vom jüngsten Erfolg großer generativer Modelle glauben wir, dass ein Schlüssel zur Bewältigung der Generalisierungsherausforderung in der Menge und Qualität von 3D-Kleidungsdaten liegt. Zu diesem Zweck sammelt GarVerseLOD 6.000 hochwertige Kleidermodelle mit feingliedrigen geometrischen Details, die von professionellen Künstlern manuell erstellt wurden. Neben dem Umfang der Trainingsdaten stellen wir fest, dass die Existenz entwirrter Granularitäten der Geometrie eine wichtige Rolle bei der Steigerung der Generalisierungsfähigkeit und Inferenzgenauigkeit des gelernten Modells spielen kann. Daher gestalten wir GarVerseLOD als hierarchischen Datensatz mit Detailstufen (LOD), die von detailfreier stilisierter Form bis hin zu posegemischter Kleidung mit pixelgenauen Details reichen. Dies ermöglicht es uns, dieses stark unterbestimmte Problem handhabbar zu machen, indem wir die Inferenz in einfachere Aufgaben aufteilen, von denen jede mit einem kleineren Suchraum eingeschränkt ist. Um sicherzustellen, dass GarVerseLOD gut auf Bilder aus der Wildnis verallgemeinern kann, schlagen wir ein neuartiges Beschriftungsparadigma basierend auf bedingten Diffusionsmodellen vor, um umfangreiche gepaarte Bilder für jedes Kleidungsmodell mit hoher Fotorealität zu generieren. Wir evaluieren unsere Methode an einer großen Anzahl von Bildern aus der Wildnis. Experimentelle Ergebnisse zeigen, dass GarVerseLOD eigenständige Kleidungsstücke mit signifikant besserer Qualität als bisherige Ansätze generieren kann. Projektseite: https://garverselod.github.io/
English
Neural implicit functions have brought impressive advances to the
state-of-the-art of clothed human digitization from multiple or even single
images. However, despite the progress, current arts still have difficulty
generalizing to unseen images with complex cloth deformation and body poses. In
this work, we present GarVerseLOD, a new dataset and framework that paves the
way to achieving unprecedented robustness in high-fidelity 3D garment
reconstruction from a single unconstrained image. Inspired by the recent
success of large generative models, we believe that one key to addressing the
generalization challenge lies in the quantity and quality of 3D garment data.
Towards this end, GarVerseLOD collects 6,000 high-quality cloth models with
fine-grained geometry details manually created by professional artists. In
addition to the scale of training data, we observe that having disentangled
granularities of geometry can play an important role in boosting the
generalization capability and inference accuracy of the learned model. We hence
craft GarVerseLOD as a hierarchical dataset with levels of details (LOD),
spanning from detail-free stylized shape to pose-blended garment with
pixel-aligned details. This allows us to make this highly under-constrained
problem tractable by factorizing the inference into easier tasks, each narrowed
down with smaller searching space. To ensure GarVerseLOD can generalize well to
in-the-wild images, we propose a novel labeling paradigm based on conditional
diffusion models to generate extensive paired images for each garment model
with high photorealism. We evaluate our method on a massive amount of
in-the-wild images. Experimental results demonstrate that GarVerseLOD can
generate standalone garment pieces with significantly better quality than prior
approaches. Project page: https://garverselod.github.io/Summary
AI-Generated Summary