FitDiT : Faire progresser les détails authentiques des vêtements pour l'essayage virtuel haute fidélité

Résumé

Bien que l'essayage virtuel basé sur l'image ait fait des progrès considérables, les approches émergentes rencontrent encore des défis pour produire des images d'ajustement haute fidélité et robustes dans divers scénarios. Ces méthodes ont souvent du mal avec des problèmes tels que la maintenance consciente de la texture et l'ajustement conscient de la taille, ce qui entrave leur efficacité globale. Pour remédier à ces limitations, nous proposons une nouvelle technique d'amélioration de la perception des vêtements, appelée FitDiT, conçue pour l'essayage virtuel haute fidélité en utilisant des transformateurs de diffusion (DiT) allouant plus de paramètres et d'attention aux caractéristiques haute résolution. Tout d'abord, pour améliorer davantage la maintenance consciente de la texture, nous introduisons un extracteur de texture de vêtements qui intègre l'évolution des préférences des vêtements pour affiner la caractéristique des vêtements, facilitant la capture de détails riches tels que les rayures, les motifs et le texte. De plus, nous introduisons l'apprentissage dans le domaine de la fréquence en personnalisant une perte de distance de fréquence pour améliorer les détails de haute fréquence des vêtements. Pour résoudre le problème de l'ajustement conscient de la taille, nous utilisons une stratégie de masque dilaté-relâché qui s'adapte à la longueur correcte des vêtements, empêchant la génération de vêtements qui remplissent toute la zone du masque lors de l'essayage inter-catégories. Équipé de la conception ci-dessus, FitDiT surpasse toutes les références à la fois dans les évaluations qualitatives et quantitatives. Il excelle dans la production de vêtements bien ajustés avec des détails photoréalistes et complexes, tout en obtenant des temps d'inférence compétitifs de 4,57 secondes pour une seule image de 1024x768 après l'amincissement de la structure DiT, surpassant les méthodes existantes.

English

Although image-based virtual try-on has made considerable progress, emerging approaches still encounter challenges in producing high-fidelity and robust fitting images across diverse scenarios. These methods often struggle with issues such as texture-aware maintenance and size-aware fitting, which hinder their overall effectiveness. To address these limitations, we propose a novel garment perception enhancement technique, termed FitDiT, designed for high-fidelity virtual try-on using Diffusion Transformers (DiT) allocating more parameters and attention to high-resolution features. First, to further improve texture-aware maintenance, we introduce a garment texture extractor that incorporates garment priors evolution to fine-tune garment feature, facilitating to better capture rich details such as stripes, patterns, and text. Additionally, we introduce frequency-domain learning by customizing a frequency distance loss to enhance high-frequency garment details. To tackle the size-aware fitting issue, we employ a dilated-relaxed mask strategy that adapts to the correct length of garments, preventing the generation of garments that fill the entire mask area during cross-category try-on. Equipped with the above design, FitDiT surpasses all baselines in both qualitative and quantitative evaluations. It excels in producing well-fitting garments with photorealistic and intricate details, while also achieving competitive inference times of 4.57 seconds for a single 1024x768 image after DiT structure slimming, outperforming existing methods.

FitDiT : Faire progresser les détails authentiques des vêtements pour l'essayage virtuel haute fidélité

FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on

Résumé

Summary

Support