Any2AnyTryon: Het benutten van Adaptieve Positie-Embeddings voor Veelzijdige Virtuele Kledingtaken
Any2AnyTryon: Leveraging Adaptive Position Embeddings for Versatile Virtual Clothing Tasks
January 27, 2025
Auteurs: Hailong Guo, Bohan Zeng, Yiren Song, Wentao Zhang, Chuang Zhang, Jiaming Liu
cs.AI
Samenvatting
Image-based virtual try-on (VTON) heeft als doel een virtueel pasresultaat te genereren door een kledingstuk van invoer over te brengen naar een afbeelding van een doelpersoon. De schaarste aan gekoppelde kleding-modelgegevens maakt het echter uitdagend voor bestaande methoden om een hoge generalisatie en kwaliteit in VTON te bereiken. Ook beperkt het de mogelijkheid om maskervrije pasbeurten te genereren. Om het probleem van de gegevensschaarste aan te pakken, maken benaderingen zoals Stable Garment en MMTryon gebruik van een synthetische gegevensstrategie, waardoor effectief de hoeveelheid gekoppelde gegevens aan de modelzijde wordt verhoogd. Bestaande methoden zijn echter doorgaans beperkt tot het uitvoeren van specifieke pas-taken en missen gebruiksvriendelijkheid. Om de generalisatie en controleerbaarheid van VTON-generatie te verbeteren, stellen we Any2AnyTryon voor, die pasresultaten kan genereren op basis van verschillende tekstuele instructies en modelkledingafbeeldingen om aan verschillende behoeften te voldoen, zonder afhankelijk te zijn van maskers, poses of andere voorwaarden. Specifiek construeren we eerst de virtuele pas-dataset LAION-Garment, de grootste bekende open-source kleding-pas-dataset. Vervolgens introduceren we adaptieve positie-embedding, waardoor het model bevredigende geklede modelafbeeldingen of kledingafbeeldingen kan genereren op basis van invoerafbeeldingen van verschillende formaten en categorieën, wat de generalisatie en controleerbaarheid van VTON-generatie aanzienlijk verbetert. In onze experimenten tonen we de effectiviteit van onze Any2AnyTryon en vergelijken we deze met bestaande methoden. De resultaten tonen aan dat Any2AnyTryon flexibele, controleerbare en hoogwaardige op afbeeldingen gebaseerde virtuele pasgeneratie mogelijk maakt.
English
Image-based virtual try-on (VTON) aims to generate a virtual try-on result by
transferring an input garment onto a target person's image. However, the
scarcity of paired garment-model data makes it challenging for existing methods
to achieve high generalization and quality in VTON. Also, it limits the ability
to generate mask-free try-ons. To tackle the data scarcity problem, approaches
such as Stable Garment and MMTryon use a synthetic data strategy, effectively
increasing the amount of paired data on the model side. However, existing
methods are typically limited to performing specific try-on tasks and lack
user-friendliness. To enhance the generalization and controllability of VTON
generation, we propose Any2AnyTryon, which can generate try-on results based on
different textual instructions and model garment images to meet various needs,
eliminating the reliance on masks, poses, or other conditions. Specifically, we
first construct the virtual try-on dataset LAION-Garment, the largest known
open-source garment try-on dataset. Then, we introduce adaptive position
embedding, which enables the model to generate satisfactory outfitted model
images or garment images based on input images of different sizes and
categories, significantly enhancing the generalization and controllability of
VTON generation. In our experiments, we demonstrate the effectiveness of our
Any2AnyTryon and compare it with existing methods. The results show that
Any2AnyTryon enables flexible, controllable, and high-quality image-based
virtual try-on generation.https://logn-2024.github.io/Any2anyTryonProjectPage/Summary
AI-Generated Summary