FitDiT: Weiterentwicklung von authentischen Kleidungsdetails für hochauflösende virtuelle Anproben.
FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on
November 15, 2024
Autoren: Boyuan Jiang, Xiaobin Hu, Donghao Luo, Qingdong He, Chengming Xu, Jinlong Peng, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Yanwei Fu
cs.AI
Zusammenfassung
Obwohl die bildbasierte virtuelle Anprobe erhebliche Fortschritte gemacht hat, stoßen neue Ansätze immer noch auf Herausforderungen bei der Erzeugung hochwertiger und robuster Anpassungsbilder in verschiedenen Szenarien. Diese Methoden haben oft Schwierigkeiten mit Problemen wie texturbezogener Aufrechterhaltung und größenbezogener Anpassung, die ihre Gesamteffektivität beeinträchtigen. Um diese Einschränkungen zu bewältigen, schlagen wir eine neuartige Technik zur Verbesserung der Kleidungswahrnehmung vor, die als FitDiT bezeichnet wird und für hochwertige virtuelle Anproben mit Diffusionstransformatoren (DiT) entwickelt wurde, die mehr Parameter und Aufmerksamkeit auf hochauflösende Merkmale lenken. Zunächst führen wir zur weiteren Verbesserung der texturbezogenen Aufrechterhaltung einen Kleidungstexturextraktor ein, der die Evolution von Kleidungsprioritäten integriert, um Merkmale der Kleidung feinabzustimmen und so die Erfassung von reichen Details wie Streifen, Mustern und Texten zu erleichtern. Darüber hinaus führen wir das Lernen im Frequenzbereich ein, indem wir einen frequenzbasierten Distanzverlust anpassen, um hochfrequente Details der Kleidung zu verbessern. Um das Problem der größenbezogenen Anpassung anzugehen, verwenden wir eine Strategie mit dilatierten und entspannten Masken, die sich an die richtige Länge der Kleidungsstücke anpasst und so verhindert, dass Kleidungsstücke erzeugt werden, die den gesamten Maskenbereich bei Anproben über verschiedene Kategorien ausfüllen. Ausgestattet mit dem oben genannten Design übertrifft FitDiT alle Basislinien sowohl in qualitativen als auch quantitativen Bewertungen. Es zeichnet sich durch die Erzeugung gut sitzender Kleidungsstücke mit fotorealistischen und komplexen Details aus und erreicht gleichzeitig wettbewerbsfähige Inferenzzeiten von 4,57 Sekunden für ein einzelnes Bild mit 1024x768 Pixeln nach dem Schlankmachen der DiT-Struktur und übertrifft damit bestehende Methoden.
English
Although image-based virtual try-on has made considerable progress, emerging
approaches still encounter challenges in producing high-fidelity and robust
fitting images across diverse scenarios. These methods often struggle with
issues such as texture-aware maintenance and size-aware fitting, which hinder
their overall effectiveness. To address these limitations, we propose a novel
garment perception enhancement technique, termed FitDiT, designed for
high-fidelity virtual try-on using Diffusion Transformers (DiT) allocating more
parameters and attention to high-resolution features. First, to further improve
texture-aware maintenance, we introduce a garment texture extractor that
incorporates garment priors evolution to fine-tune garment feature,
facilitating to better capture rich details such as stripes, patterns, and
text. Additionally, we introduce frequency-domain learning by customizing a
frequency distance loss to enhance high-frequency garment details. To tackle
the size-aware fitting issue, we employ a dilated-relaxed mask strategy that
adapts to the correct length of garments, preventing the generation of garments
that fill the entire mask area during cross-category try-on. Equipped with the
above design, FitDiT surpasses all baselines in both qualitative and
quantitative evaluations. It excels in producing well-fitting garments with
photorealistic and intricate details, while also achieving competitive
inference times of 4.57 seconds for a single 1024x768 image after DiT structure
slimming, outperforming existing methods.Summary
AI-Generated Summary