FitDiT: Avanzamento dei Dettagli Autentici dell'Abbigliamento per la Prova Virtuale ad Alta Fedeltà
FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on
November 15, 2024
Autori: Boyuan Jiang, Xiaobin Hu, Donghao Luo, Qingdong He, Chengming Xu, Jinlong Peng, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Yanwei Fu
cs.AI
Abstract
Sebbene il virtual try-on basato su immagini abbia fatto notevoli progressi, gli approcci emergenti incontrano ancora sfide nella produzione di immagini di adattamento di alta fedeltà e robuste in scenari diversi. Questi metodi spesso faticano con problemi come il mantenimento consapevole della texture e l'adattamento consapevole della taglia, che ostacolano la loro efficacia complessiva. Per affrontare queste limitazioni, proponiamo una nuova tecnica di potenziamento della percezione dell'indumento, denominata FitDiT, progettata per il virtual try-on di alta fedeltà utilizzando i Diffusion Transformers (DiT) che allocano più parametri e attenzione alle caratteristiche ad alta risoluzione. Per migliorare ulteriormente il mantenimento consapevole della texture, introduciamo un estrattore di texture dell'indumento che incorpora l'evoluzione dei priori dell'indumento per perfezionare la caratteristica dell'indumento, facilitando la cattura di dettagli ricchi come righe, motivi e testo. Inoltre, introduciamo l'apprendimento nel dominio delle frequenze personalizzando una perdita di distanza in frequenza per potenziare i dettagli ad alta frequenza dell'indumento. Per affrontare il problema dell'adattamento consapevole della taglia, utilizziamo una strategia di mascheramento dilatata-rilassata che si adatta alla lunghezza corretta degli indumenti, impedendo la generazione di indumenti che riempiono l'intera area della maschera durante il cross-category try-on. Dotato del design sopra descritto, FitDiT supera tutti i baselines sia nelle valutazioni qualitative che quantitative. Eccelle nella produzione di indumenti ben adattati con dettagli fotorealistici e intricati, raggiungendo anche tempi di inferenza competitivi di 4,57 secondi per un'immagine singola 1024x768 dopo il dimagrimento della struttura DiT, superando i metodi esistenti.
English
Although image-based virtual try-on has made considerable progress, emerging
approaches still encounter challenges in producing high-fidelity and robust
fitting images across diverse scenarios. These methods often struggle with
issues such as texture-aware maintenance and size-aware fitting, which hinder
their overall effectiveness. To address these limitations, we propose a novel
garment perception enhancement technique, termed FitDiT, designed for
high-fidelity virtual try-on using Diffusion Transformers (DiT) allocating more
parameters and attention to high-resolution features. First, to further improve
texture-aware maintenance, we introduce a garment texture extractor that
incorporates garment priors evolution to fine-tune garment feature,
facilitating to better capture rich details such as stripes, patterns, and
text. Additionally, we introduce frequency-domain learning by customizing a
frequency distance loss to enhance high-frequency garment details. To tackle
the size-aware fitting issue, we employ a dilated-relaxed mask strategy that
adapts to the correct length of garments, preventing the generation of garments
that fill the entire mask area during cross-category try-on. Equipped with the
above design, FitDiT surpasses all baselines in both qualitative and
quantitative evaluations. It excels in producing well-fitting garments with
photorealistic and intricate details, while also achieving competitive
inference times of 4.57 seconds for a single 1024x768 image after DiT structure
slimming, outperforming existing methods.Summary
AI-Generated Summary