FitDiT : Faire progresser les détails authentiques des vêtements pour l'essayage virtuel haute fidélité
FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on
November 15, 2024
Auteurs: Boyuan Jiang, Xiaobin Hu, Donghao Luo, Qingdong He, Chengming Xu, Jinlong Peng, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Yanwei Fu
cs.AI
Résumé
Bien que l'essayage virtuel basé sur l'image ait fait des progrès considérables, les approches émergentes rencontrent encore des défis pour produire des images d'ajustement haute fidélité et robustes dans divers scénarios. Ces méthodes ont souvent du mal avec des problèmes tels que la maintenance consciente de la texture et l'ajustement conscient de la taille, ce qui entrave leur efficacité globale. Pour remédier à ces limitations, nous proposons une nouvelle technique d'amélioration de la perception des vêtements, appelée FitDiT, conçue pour l'essayage virtuel haute fidélité en utilisant des transformateurs de diffusion (DiT) allouant plus de paramètres et d'attention aux caractéristiques haute résolution. Tout d'abord, pour améliorer davantage la maintenance consciente de la texture, nous introduisons un extracteur de texture de vêtements qui intègre l'évolution des préférences des vêtements pour affiner la caractéristique des vêtements, facilitant la capture de détails riches tels que les rayures, les motifs et le texte. De plus, nous introduisons l'apprentissage dans le domaine de la fréquence en personnalisant une perte de distance de fréquence pour améliorer les détails de haute fréquence des vêtements. Pour résoudre le problème de l'ajustement conscient de la taille, nous utilisons une stratégie de masque dilaté-relâché qui s'adapte à la longueur correcte des vêtements, empêchant la génération de vêtements qui remplissent toute la zone du masque lors de l'essayage inter-catégories. Équipé de la conception ci-dessus, FitDiT surpasse toutes les références à la fois dans les évaluations qualitatives et quantitatives. Il excelle dans la production de vêtements bien ajustés avec des détails photoréalistes et complexes, tout en obtenant des temps d'inférence compétitifs de 4,57 secondes pour une seule image de 1024x768 après l'amincissement de la structure DiT, surpassant les méthodes existantes.
English
Although image-based virtual try-on has made considerable progress, emerging
approaches still encounter challenges in producing high-fidelity and robust
fitting images across diverse scenarios. These methods often struggle with
issues such as texture-aware maintenance and size-aware fitting, which hinder
their overall effectiveness. To address these limitations, we propose a novel
garment perception enhancement technique, termed FitDiT, designed for
high-fidelity virtual try-on using Diffusion Transformers (DiT) allocating more
parameters and attention to high-resolution features. First, to further improve
texture-aware maintenance, we introduce a garment texture extractor that
incorporates garment priors evolution to fine-tune garment feature,
facilitating to better capture rich details such as stripes, patterns, and
text. Additionally, we introduce frequency-domain learning by customizing a
frequency distance loss to enhance high-frequency garment details. To tackle
the size-aware fitting issue, we employ a dilated-relaxed mask strategy that
adapts to the correct length of garments, preventing the generation of garments
that fill the entire mask area during cross-category try-on. Equipped with the
above design, FitDiT surpasses all baselines in both qualitative and
quantitative evaluations. It excels in producing well-fitting garments with
photorealistic and intricate details, while also achieving competitive
inference times of 4.57 seconds for a single 1024x768 image after DiT structure
slimming, outperforming existing methods.Summary
AI-Generated Summary