TryOffDiff: Prova virtuale tramite Ricostruzione ad Alta Fedeltà utilizzando Modelli di Diffusione

Abstract

Questo articolo introduce il Virtual Try-Off (VTOFF), un nuovo compito incentrato sulla generazione di immagini standardizzate di capi di abbigliamento da singole foto di individui vestiti. A differenza del tradizionale Virtual Try-On (VTON), che veste digitalmente i modelli, il VTOFF mira a estrarre un'immagine canonica del capo, presentando sfide uniche nella cattura della forma, della texture e dei motivi intricati del capo. Questo obiettivo ben definito rende il VTOFF particolarmente efficace per valutare la fedeltà di ricostruzione nei modelli generativi. Presentiamo TryOffDiff, un modello che adatta Stable Diffusion con condizionamento visivo basato su SigLIP per garantire un'alta fedeltà e una dettagliata conservazione. Gli esperimenti su un dataset modificato VITON-HD mostrano che il nostro approccio supera i metodi di base basati sul trasferimento di pose e sul virtual try-on con minori passaggi di pre- e post-elaborazione. La nostra analisi rivela che le metriche tradizionali di generazione di immagini valutano in modo inadeguato la qualità della ricostruzione, spingendoci a fare affidamento su DISTS per una valutazione più accurata. I nostri risultati evidenziano il potenziale del VTOFF nel migliorare le immagini di prodotto nelle applicazioni di e-commerce, far progredire la valutazione dei modelli generativi e ispirare lavori futuri sulla ricostruzione ad alta fedeltà. Demo, codice e modelli sono disponibili su: https://rizavelioglu.github.io/tryoffdiff/

English

This paper introduces Virtual Try-Off (VTOFF), a novel task focused on generating standardized garment images from single photos of clothed individuals. Unlike traditional Virtual Try-On (VTON), which digitally dresses models, VTOFF aims to extract a canonical garment image, posing unique challenges in capturing garment shape, texture, and intricate patterns. This well-defined target makes VTOFF particularly effective for evaluating reconstruction fidelity in generative models. We present TryOffDiff, a model that adapts Stable Diffusion with SigLIP-based visual conditioning to ensure high fidelity and detail retention. Experiments on a modified VITON-HD dataset show that our approach outperforms baseline methods based on pose transfer and virtual try-on with fewer pre- and post-processing steps. Our analysis reveals that traditional image generation metrics inadequately assess reconstruction quality, prompting us to rely on DISTS for more accurate evaluation. Our results highlight the potential of VTOFF to enhance product imagery in e-commerce applications, advance generative model evaluation, and inspire future work on high-fidelity reconstruction. Demo, code, and models are available at: https://rizavelioglu.github.io/tryoffdiff/

TryOffDiff: Prova virtuale tramite Ricostruzione ad Alta Fedeltà utilizzando Modelli di Diffusione

TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models

Abstract

Summary

Support