Mode-VDM: Video Diffusie Model voor Virtueel Passen

Fashion-VDM: Video Diffusion Model for Virtual Try-On

October 31, 2024
Auteurs: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman
cs.AI

Samenvatting

We presenteren Fashion-VDM, een videodiffusiemodel (VDM) voor het genereren van virtuele pasvideo's. Met een invoerafbeelding van een kledingstuk en een persoonsvideo beoogt onze methode een hoogwaardige pasvideo te genereren waarop de persoon het betreffende kledingstuk draagt, met behoud van de identiteit en beweging van de persoon. Virtueel passen op basis van afbeeldingen heeft indrukwekkende resultaten laten zien; echter, bestaande methoden voor virtueel passen in video (VVT) missen nog steeds details van het kledingstuk en temporele consistentie. Om deze problemen aan te pakken, stellen we een op diffusie gebaseerde architectuur voor video virtueel passen voor, met een splitsing van classifier-vrije begeleiding voor meer controle over de conditionering inputs, en een progressieve temporale trainingsstrategie voor het genereren van video's in één doorgang met 64 frames en 512px. We tonen ook de effectiviteit aan van gezamenlijke beeld-video training voor video passen, vooral wanneer videogegevens beperkt zijn. Onze kwalitatieve en kwantitatieve experimenten tonen aan dat onze benadering de nieuwe state-of-the-art zet voor video virtueel passen. Voor aanvullende resultaten, bezoek onze projectpagina: https://johannakarras.github.io/Fashion-VDM.
English
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual try-on videos. Given an input garment image and person video, our method aims to generate a high-quality try-on video of the person wearing the given garment, while preserving the person's identity and motion. Image-based virtual try-on has shown impressive results; however, existing video virtual try-on (VVT) methods are still lacking garment details and temporal consistency. To address these issues, we propose a diffusion-based architecture for video virtual try-on, split classifier-free guidance for increased control over the conditioning inputs, and a progressive temporal training strategy for single-pass 64-frame, 512px video generation. We also demonstrate the effectiveness of joint image-video training for video try-on, especially when video data is limited. Our qualitative and quantitative experiments show that our approach sets the new state-of-the-art for video virtual try-on. For additional results, visit our project page: https://johannakarras.github.io/Fashion-VDM.

Summary

AI-Generated Summary

PDF72November 13, 2024