GarVerseLOD: Hochauflösende 3D-Gewandrekonstruktion aus einem einzigen In-the-Wild-Bild unter Verwendung eines Datensatzes mit verschiedenen Detailebenen

Zusammenfassung

Neuronale implizite Funktionen haben beeindruckende Fortschritte im Stand der Technik der digitalen Erfassung bekleideter menschlicher Körper aus mehreren oder sogar einzelnen Bildern gebracht. Trotz des Fortschritts haben aktuelle Ansätze immer noch Schwierigkeiten, sich auf unbekannte Bilder mit komplexer Stoffdeformation und Körperhaltungen zu verallgemeinern. In dieser Arbeit präsentieren wir GarVerseLOD, einen neuen Datensatz und ein Framework, das den Weg ebnet, eine beispiellose Robustheit bei der hochwertigen 3D-Kleidungsrekonstruktion aus einem einzigen unbeschränkten Bild zu erreichen. Inspiriert vom jüngsten Erfolg großer generativer Modelle glauben wir, dass ein Schlüssel zur Bewältigung der Generalisierungsherausforderung in der Menge und Qualität von 3D-Kleidungsdaten liegt. Zu diesem Zweck sammelt GarVerseLOD 6.000 hochwertige Kleidermodelle mit feingliedrigen geometrischen Details, die von professionellen Künstlern manuell erstellt wurden. Neben dem Umfang der Trainingsdaten stellen wir fest, dass die Existenz entwirrter Granularitäten der Geometrie eine wichtige Rolle bei der Steigerung der Generalisierungsfähigkeit und Inferenzgenauigkeit des gelernten Modells spielen kann. Daher gestalten wir GarVerseLOD als hierarchischen Datensatz mit Detailstufen (LOD), die von detailfreier stilisierter Form bis hin zu posegemischter Kleidung mit pixelgenauen Details reichen. Dies ermöglicht es uns, dieses stark unterbestimmte Problem handhabbar zu machen, indem wir die Inferenz in einfachere Aufgaben aufteilen, von denen jede mit einem kleineren Suchraum eingeschränkt ist. Um sicherzustellen, dass GarVerseLOD gut auf Bilder aus der Wildnis verallgemeinern kann, schlagen wir ein neuartiges Beschriftungsparadigma basierend auf bedingten Diffusionsmodellen vor, um umfangreiche gepaarte Bilder für jedes Kleidungsmodell mit hoher Fotorealität zu generieren. Wir evaluieren unsere Methode an einer großen Anzahl von Bildern aus der Wildnis. Experimentelle Ergebnisse zeigen, dass GarVerseLOD eigenständige Kleidungsstücke mit signifikant besserer Qualität als bisherige Ansätze generieren kann. Projektseite: https://garverselod.github.io/

English

Neural implicit functions have brought impressive advances to the state-of-the-art of clothed human digitization from multiple or even single images. However, despite the progress, current arts still have difficulty generalizing to unseen images with complex cloth deformation and body poses. In this work, we present GarVerseLOD, a new dataset and framework that paves the way to achieving unprecedented robustness in high-fidelity 3D garment reconstruction from a single unconstrained image. Inspired by the recent success of large generative models, we believe that one key to addressing the generalization challenge lies in the quantity and quality of 3D garment data. Towards this end, GarVerseLOD collects 6,000 high-quality cloth models with fine-grained geometry details manually created by professional artists. In addition to the scale of training data, we observe that having disentangled granularities of geometry can play an important role in boosting the generalization capability and inference accuracy of the learned model. We hence craft GarVerseLOD as a hierarchical dataset with levels of details (LOD), spanning from detail-free stylized shape to pose-blended garment with pixel-aligned details. This allows us to make this highly under-constrained problem tractable by factorizing the inference into easier tasks, each narrowed down with smaller searching space. To ensure GarVerseLOD can generalize well to in-the-wild images, we propose a novel labeling paradigm based on conditional diffusion models to generate extensive paired images for each garment model with high photorealism. We evaluate our method on a massive amount of in-the-wild images. Experimental results demonstrate that GarVerseLOD can generate standalone garment pieces with significantly better quality than prior approaches. Project page: https://garverselod.github.io/

GarVerseLOD: Hochauflösende 3D-Gewandrekonstruktion aus einem einzigen In-the-Wild-Bild unter Verwendung eines Datensatzes mit verschiedenen Detailebenen

GarVerseLOD: High-Fidelity 3D Garment Reconstruction from a Single In-the-Wild Image using a Dataset with Levels of Details

Zusammenfassung

Summary

Support