FitDiT: Het verbeteren van de authentieke kledingdetails voor hoogwaardige virtuele pasvorm.
FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on
November 15, 2024
Auteurs: Boyuan Jiang, Xiaobin Hu, Donghao Luo, Qingdong He, Chengming Xu, Jinlong Peng, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Yanwei Fu
cs.AI
Samenvatting
Hoewel op beeld gebaseerde virtuele pasvorm uitproberen aanzienlijke vooruitgang heeft geboekt, ondervinden opkomende benaderingen nog steeds uitdagingen bij het produceren van hoogwaardige en robuuste pasvormafbeeldingen in uiteenlopende scenario's. Deze methoden hebben vaak moeite met kwesties zoals textuurgevoelig onderhoud en maatgevoelige pasvorm, die hun algehele effectiviteit belemmeren. Om deze beperkingen aan te pakken, stellen we een nieuwe techniek voor voor het verbeteren van kledingperceptie, genaamd FitDiT, ontworpen voor hoogwaardige virtuele pasvorm met behulp van Diffusion Transformers (DiT) die meer parameters en aandacht toewijzen aan hoge-resolutie kenmerken. Ten eerste introduceren we, om textuurgevoelig onderhoud verder te verbeteren, een kledingtextuurextractor die kledingprioriteiten evolutie opneemt om kledingkenmerken bij te stellen, wat helpt bij het beter vastleggen van rijke details zoals strepen, patronen en tekst. Daarnaast introduceren we leertechnieken in het frequentiedomein door een frequentieafstandsverlies aan te passen om hoge-frequentie kledingdetails te verbeteren. Om het probleem van maatgevoelige pasvorm aan te pakken, maken we gebruik van een strategie met verdunde-ontspannen maskers die zich aanpassen aan de juiste lengte van kledingstukken, waardoor wordt voorkomen dat kledingstukken worden gegenereerd die het volledige maskergebied vullen tijdens het uitproberen van verschillende categorieën. Uitgerust met bovenstaand ontwerp overtreft FitDiT alle baselines in zowel kwalitatieve als kwantitatieve evaluaties. Het excelleert in het produceren van goed passende kledingstukken met fotorealistische en ingewikkelde details, terwijl het ook competitieve inferentietijden van 4,57 seconden behaalt voor een enkele 1024x768 afbeelding na het slanken van de DiT-structuur, waarbij bestaande methoden worden overtroffen.
English
Although image-based virtual try-on has made considerable progress, emerging
approaches still encounter challenges in producing high-fidelity and robust
fitting images across diverse scenarios. These methods often struggle with
issues such as texture-aware maintenance and size-aware fitting, which hinder
their overall effectiveness. To address these limitations, we propose a novel
garment perception enhancement technique, termed FitDiT, designed for
high-fidelity virtual try-on using Diffusion Transformers (DiT) allocating more
parameters and attention to high-resolution features. First, to further improve
texture-aware maintenance, we introduce a garment texture extractor that
incorporates garment priors evolution to fine-tune garment feature,
facilitating to better capture rich details such as stripes, patterns, and
text. Additionally, we introduce frequency-domain learning by customizing a
frequency distance loss to enhance high-frequency garment details. To tackle
the size-aware fitting issue, we employ a dilated-relaxed mask strategy that
adapts to the correct length of garments, preventing the generation of garments
that fill the entire mask area during cross-category try-on. Equipped with the
above design, FitDiT surpasses all baselines in both qualitative and
quantitative evaluations. It excels in producing well-fitting garments with
photorealistic and intricate details, while also achieving competitive
inference times of 4.57 seconds for a single 1024x768 image after DiT structure
slimming, outperforming existing methods.Summary
AI-Generated Summary