TryOffDiff: Prova virtuale tramite Ricostruzione ad Alta Fedeltà utilizzando Modelli di Diffusione
TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models
November 27, 2024
Autori: Riza Velioglu, Petra Bevandic, Robin Chan, Barbara Hammer
cs.AI
Abstract
Questo articolo introduce il Virtual Try-Off (VTOFF), un nuovo compito incentrato sulla generazione di immagini standardizzate di capi di abbigliamento da singole foto di individui vestiti. A differenza del tradizionale Virtual Try-On (VTON), che veste digitalmente i modelli, il VTOFF mira a estrarre un'immagine canonica del capo, presentando sfide uniche nella cattura della forma, della texture e dei motivi intricati del capo. Questo obiettivo ben definito rende il VTOFF particolarmente efficace per valutare la fedeltà di ricostruzione nei modelli generativi. Presentiamo TryOffDiff, un modello che adatta Stable Diffusion con condizionamento visivo basato su SigLIP per garantire un'alta fedeltà e una dettagliata conservazione. Gli esperimenti su un dataset modificato VITON-HD mostrano che il nostro approccio supera i metodi di base basati sul trasferimento di pose e sul virtual try-on con minori passaggi di pre- e post-elaborazione. La nostra analisi rivela che le metriche tradizionali di generazione di immagini valutano in modo inadeguato la qualità della ricostruzione, spingendoci a fare affidamento su DISTS per una valutazione più accurata. I nostri risultati evidenziano il potenziale del VTOFF nel migliorare le immagini di prodotto nelle applicazioni di e-commerce, far progredire la valutazione dei modelli generativi e ispirare lavori futuri sulla ricostruzione ad alta fedeltà. Demo, codice e modelli sono disponibili su: https://rizavelioglu.github.io/tryoffdiff/
English
This paper introduces Virtual Try-Off (VTOFF), a novel task focused on
generating standardized garment images from single photos of clothed
individuals. Unlike traditional Virtual Try-On (VTON), which digitally dresses
models, VTOFF aims to extract a canonical garment image, posing unique
challenges in capturing garment shape, texture, and intricate patterns. This
well-defined target makes VTOFF particularly effective for evaluating
reconstruction fidelity in generative models. We present TryOffDiff, a model
that adapts Stable Diffusion with SigLIP-based visual conditioning to ensure
high fidelity and detail retention. Experiments on a modified VITON-HD dataset
show that our approach outperforms baseline methods based on pose transfer and
virtual try-on with fewer pre- and post-processing steps. Our analysis reveals
that traditional image generation metrics inadequately assess reconstruction
quality, prompting us to rely on DISTS for more accurate evaluation. Our
results highlight the potential of VTOFF to enhance product imagery in
e-commerce applications, advance generative model evaluation, and inspire
future work on high-fidelity reconstruction. Demo, code, and models are
available at: https://rizavelioglu.github.io/tryoffdiff/Summary
AI-Generated Summary