Any2AnyTryon: Het benutten van Adaptieve Positie-Embeddings voor Veelzijdige Virtuele Kledingtaken

Any2AnyTryon: Leveraging Adaptive Position Embeddings for Versatile Virtual Clothing Tasks

January 27, 2025
Auteurs: Hailong Guo, Bohan Zeng, Yiren Song, Wentao Zhang, Chuang Zhang, Jiaming Liu
cs.AI

Samenvatting

Image-based virtual try-on (VTON) heeft als doel een virtueel pasresultaat te genereren door een kledingstuk van invoer over te brengen naar een afbeelding van een doelpersoon. De schaarste aan gekoppelde kleding-modelgegevens maakt het echter uitdagend voor bestaande methoden om een hoge generalisatie en kwaliteit in VTON te bereiken. Ook beperkt het de mogelijkheid om maskervrije pasbeurten te genereren. Om het probleem van de gegevensschaarste aan te pakken, maken benaderingen zoals Stable Garment en MMTryon gebruik van een synthetische gegevensstrategie, waardoor effectief de hoeveelheid gekoppelde gegevens aan de modelzijde wordt verhoogd. Bestaande methoden zijn echter doorgaans beperkt tot het uitvoeren van specifieke pas-taken en missen gebruiksvriendelijkheid. Om de generalisatie en controleerbaarheid van VTON-generatie te verbeteren, stellen we Any2AnyTryon voor, die pasresultaten kan genereren op basis van verschillende tekstuele instructies en modelkledingafbeeldingen om aan verschillende behoeften te voldoen, zonder afhankelijk te zijn van maskers, poses of andere voorwaarden. Specifiek construeren we eerst de virtuele pas-dataset LAION-Garment, de grootste bekende open-source kleding-pas-dataset. Vervolgens introduceren we adaptieve positie-embedding, waardoor het model bevredigende geklede modelafbeeldingen of kledingafbeeldingen kan genereren op basis van invoerafbeeldingen van verschillende formaten en categorieën, wat de generalisatie en controleerbaarheid van VTON-generatie aanzienlijk verbetert. In onze experimenten tonen we de effectiviteit van onze Any2AnyTryon en vergelijken we deze met bestaande methoden. De resultaten tonen aan dat Any2AnyTryon flexibele, controleerbare en hoogwaardige op afbeeldingen gebaseerde virtuele pasgeneratie mogelijk maakt.
English
Image-based virtual try-on (VTON) aims to generate a virtual try-on result by transferring an input garment onto a target person's image. However, the scarcity of paired garment-model data makes it challenging for existing methods to achieve high generalization and quality in VTON. Also, it limits the ability to generate mask-free try-ons. To tackle the data scarcity problem, approaches such as Stable Garment and MMTryon use a synthetic data strategy, effectively increasing the amount of paired data on the model side. However, existing methods are typically limited to performing specific try-on tasks and lack user-friendliness. To enhance the generalization and controllability of VTON generation, we propose Any2AnyTryon, which can generate try-on results based on different textual instructions and model garment images to meet various needs, eliminating the reliance on masks, poses, or other conditions. Specifically, we first construct the virtual try-on dataset LAION-Garment, the largest known open-source garment try-on dataset. Then, we introduce adaptive position embedding, which enables the model to generate satisfactory outfitted model images or garment images based on input images of different sizes and categories, significantly enhancing the generalization and controllability of VTON generation. In our experiments, we demonstrate the effectiveness of our Any2AnyTryon and compare it with existing methods. The results show that Any2AnyTryon enables flexible, controllable, and high-quality image-based virtual try-on generation.https://logn-2024.github.io/Any2anyTryonProjectPage/

Summary

AI-Generated Summary

PDF83January 31, 2025