FitDiT: 고정밀 가상 시착을 위한 진정한 의류 세부 정보 발전
FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on
November 15, 2024
저자: Boyuan Jiang, Xiaobin Hu, Donghao Luo, Qingdong He, Chengming Xu, Jinlong Peng, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Yanwei Fu
cs.AI
초록
이미지 기반 가상 착용 시스템은 상당한 발전을 이루었지만, 새로운 접근법은 여전히 다양한 시나리오에서 고품질이고 견고한 착용 이미지를 생성하는 데 어려움을 겪고 있다. 이러한 방법들은 종종 질감 인식 유지와 사이즈 인식 착용과 같은 문제로 전반적인 효과를 저해하는 어려움을 겪는다. 이러한 제한 사항을 해결하기 위해 우리는 FitDiT라는 새로운 의복 인식 향상 기술을 제안한다. 이 기술은 Diffusion Transformers (DiT)를 사용하여 고해상도 특징에 더 많은 매개변수와 주의를 할당하여 고품질 가상 착용을 위해 설계되었다. 먼저 질감 인식 유지를 더 개선하기 위해, 우리는 의복 사전 진화를 통합한 의복 질감 추출기를 소개하여 의복 특징을 미세 조정하여 줄무늬, 패턴 및 텍스트와 같은 풍부한 세부 사항을 더 잘 캡처할 수 있도록 돕는다. 게다가, 고주파 의복 세부 사항을 향상시키기 위해 주파수 도메인 학습을 소개한다. 사이즈 인식 착용 문제를 해결하기 위해, 교착-완화 마스크 전략을 사용하여 올바른 길이의 의복에 적응하여 교차 카테고리 착용 중 전체 마스크 영역을 채우는 의복 생성을 방지한다. 위의 설계를 갖춘 FitDiT는 질적 및 양적 평가 모두에서 모든 기준선을 능가한다. 이 기술은 사실적이고 정교한 세부 사항을 갖춘 적합한 의복을 생성하는 데 뛰어나며, DiT 구조 축소 후 1024x768 이미지에 대한 4.57초의 경쟁력 있는 추론 시간을 달성하여 기존 방법을 능가한다.
English
Although image-based virtual try-on has made considerable progress, emerging
approaches still encounter challenges in producing high-fidelity and robust
fitting images across diverse scenarios. These methods often struggle with
issues such as texture-aware maintenance and size-aware fitting, which hinder
their overall effectiveness. To address these limitations, we propose a novel
garment perception enhancement technique, termed FitDiT, designed for
high-fidelity virtual try-on using Diffusion Transformers (DiT) allocating more
parameters and attention to high-resolution features. First, to further improve
texture-aware maintenance, we introduce a garment texture extractor that
incorporates garment priors evolution to fine-tune garment feature,
facilitating to better capture rich details such as stripes, patterns, and
text. Additionally, we introduce frequency-domain learning by customizing a
frequency distance loss to enhance high-frequency garment details. To tackle
the size-aware fitting issue, we employ a dilated-relaxed mask strategy that
adapts to the correct length of garments, preventing the generation of garments
that fill the entire mask area during cross-category try-on. Equipped with the
above design, FitDiT surpasses all baselines in both qualitative and
quantitative evaluations. It excels in producing well-fitting garments with
photorealistic and intricate details, while also achieving competitive
inference times of 4.57 seconds for a single 1024x768 image after DiT structure
slimming, outperforming existing methods.Summary
AI-Generated Summary