Mode-VDM: Video Diffusie Model voor Virtueel Passen
Fashion-VDM: Video Diffusion Model for Virtual Try-On
October 31, 2024
Auteurs: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman
cs.AI
Samenvatting
We presenteren Fashion-VDM, een videodiffusiemodel (VDM) voor het genereren van virtuele pasvideo's. Met een invoerafbeelding van een kledingstuk en een persoonsvideo beoogt onze methode een hoogwaardige pasvideo te genereren waarop de persoon het betreffende kledingstuk draagt, met behoud van de identiteit en beweging van de persoon. Virtueel passen op basis van afbeeldingen heeft indrukwekkende resultaten laten zien; echter, bestaande methoden voor virtueel passen in video (VVT) missen nog steeds details van het kledingstuk en temporele consistentie. Om deze problemen aan te pakken, stellen we een op diffusie gebaseerde architectuur voor video virtueel passen voor, met een splitsing van classifier-vrije begeleiding voor meer controle over de conditionering inputs, en een progressieve temporale trainingsstrategie voor het genereren van video's in één doorgang met 64 frames en 512px. We tonen ook de effectiviteit aan van gezamenlijke beeld-video training voor video passen, vooral wanneer videogegevens beperkt zijn. Onze kwalitatieve en kwantitatieve experimenten tonen aan dat onze benadering de nieuwe state-of-the-art zet voor video virtueel passen. Voor aanvullende resultaten, bezoek onze projectpagina: https://johannakarras.github.io/Fashion-VDM.
English
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual
try-on videos. Given an input garment image and person video, our method aims
to generate a high-quality try-on video of the person wearing the given
garment, while preserving the person's identity and motion. Image-based virtual
try-on has shown impressive results; however, existing video virtual try-on
(VVT) methods are still lacking garment details and temporal consistency. To
address these issues, we propose a diffusion-based architecture for video
virtual try-on, split classifier-free guidance for increased control over the
conditioning inputs, and a progressive temporal training strategy for
single-pass 64-frame, 512px video generation. We also demonstrate the
effectiveness of joint image-video training for video try-on, especially when
video data is limited. Our qualitative and quantitative experiments show that
our approach sets the new state-of-the-art for video virtual try-on. For
additional results, visit our project page:
https://johannakarras.github.io/Fashion-VDM.Summary
AI-Generated Summary