Any2AnyTryon: 다목적 가상 의류 작업을 위한 적응형 위치 임베딩 활용
Any2AnyTryon: Leveraging Adaptive Position Embeddings for Versatile Virtual Clothing Tasks
January 27, 2025
저자: Hailong Guo, Bohan Zeng, Yiren Song, Wentao Zhang, Chuang Zhang, Jiaming Liu
cs.AI
초록
이미지 기반 가상 착용(VTON)은 입력 의류를 대상 사람 이미지에 전송하여 가상 착용 결과물을 생성하는 것을 목표로 합니다. 그러나 의류-모델 쌍 데이터의 부족으로 인해 기존 방법들이 VTON에서 높은 일반화와 품질을 달성하는 것이 어려워지고 있습니다. 또한, 이는 마스크 없이 착용을 생성하는 능력을 제한합니다. 데이터 부족 문제를 해결하기 위해, Stable Garment와 MMTryon과 같은 방법들은 합성 데이터 전략을 사용하여 모델 측의 쌍 데이터 양을 효과적으로 증가시킵니다. 그러나 기존 방법들은 일반적으로 특정 착용 작업을 수행하고 사용자 친화성이 부족합니다. VTON 생성의 일반화와 조절 가능성을 향상시키기 위해, 우리는 다양한 요구 사항을 충족시키기 위해 다른 텍스트 지침과 모델 의상 이미지를 기반으로 착용 결과물을 생성할 수 있는 Any2AnyTryon을 제안합니다. 이는 마스크, 포즈 또는 기타 조건에 의존하지 않습니다. 구체적으로, 우리는 먼저 가상 착용 데이터셋 LAION-Garment를 구축하였으며, 이는 알려진 가장 큰 오픈 소스 의상 가상 착용 데이터셋입니다. 그런 다음, 입력 이미지의 크기와 범주에 따라 모델이 만족스러운 착용 모델 이미지나 의상 이미지를 생성할 수 있도록 하는 적응형 위치 임베딩을 소개하여 VTON 생성의 일반화와 조절 가능성을 크게 향상시킵니다. 실험에서 우리는 Any2AnyTryon의 효과를 증명하고 기존 방법과 비교합니다. 결과는 Any2AnyTryon이 유연하고 조절 가능하며 고품질의 이미지 기반 가상 착용 생성을 가능하게 한다는 것을 보여줍니다.
English
Image-based virtual try-on (VTON) aims to generate a virtual try-on result by
transferring an input garment onto a target person's image. However, the
scarcity of paired garment-model data makes it challenging for existing methods
to achieve high generalization and quality in VTON. Also, it limits the ability
to generate mask-free try-ons. To tackle the data scarcity problem, approaches
such as Stable Garment and MMTryon use a synthetic data strategy, effectively
increasing the amount of paired data on the model side. However, existing
methods are typically limited to performing specific try-on tasks and lack
user-friendliness. To enhance the generalization and controllability of VTON
generation, we propose Any2AnyTryon, which can generate try-on results based on
different textual instructions and model garment images to meet various needs,
eliminating the reliance on masks, poses, or other conditions. Specifically, we
first construct the virtual try-on dataset LAION-Garment, the largest known
open-source garment try-on dataset. Then, we introduce adaptive position
embedding, which enables the model to generate satisfactory outfitted model
images or garment images based on input images of different sizes and
categories, significantly enhancing the generalization and controllability of
VTON generation. In our experiments, we demonstrate the effectiveness of our
Any2AnyTryon and compare it with existing methods. The results show that
Any2AnyTryon enables flexible, controllable, and high-quality image-based
virtual try-on generation.https://logn-2024.github.io/Any2anyTryonProjectPage/Summary
AI-Generated Summary