Fashion-VDM : Modèle de Diffusion Vidéo pour l'Essayage Virtuel

Fashion-VDM: Video Diffusion Model for Virtual Try-On

October 31, 2024
Auteurs: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman
cs.AI

Résumé

Nous présentons Fashion-VDM, un modèle de diffusion vidéo (VDM) pour générer des vidéos d'essayage virtuel. Étant donné une image de vêtement en entrée et une vidéo de personne, notre méthode vise à générer une vidéo d'essayage de haute qualité de la personne portant le vêtement donné, tout en préservant l'identité et le mouvement de la personne. L'essayage virtuel basé sur l'image a montré des résultats impressionnants; cependant, les méthodes d'essayage virtuel vidéo (VVT) existantes manquent encore de détails de vêtements et de cohérence temporelle. Pour résoudre ces problèmes, nous proposons une architecture basée sur la diffusion pour l'essayage virtuel vidéo, un guidage sans classificateur fractionné pour un contrôle accru sur les entrées de conditionnement, et une stratégie d'entraînement temporel progressif pour la génération de vidéos de 64 images en une seule passe, de 512px. Nous démontrons également l'efficacité de l'entraînement conjoint image-vidéo pour l'essayage vidéo, en particulier lorsque les données vidéo sont limitées. Nos expériences qualitatives et quantitatives montrent que notre approche établit le nouvel état de l'art pour l'essayage virtuel vidéo. Pour des résultats supplémentaires, visitez notre page de projet: https://johannakarras.github.io/Fashion-VDM.
English
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual try-on videos. Given an input garment image and person video, our method aims to generate a high-quality try-on video of the person wearing the given garment, while preserving the person's identity and motion. Image-based virtual try-on has shown impressive results; however, existing video virtual try-on (VVT) methods are still lacking garment details and temporal consistency. To address these issues, we propose a diffusion-based architecture for video virtual try-on, split classifier-free guidance for increased control over the conditioning inputs, and a progressive temporal training strategy for single-pass 64-frame, 512px video generation. We also demonstrate the effectiveness of joint image-video training for video try-on, especially when video data is limited. Our qualitative and quantitative experiments show that our approach sets the new state-of-the-art for video virtual try-on. For additional results, visit our project page: https://johannakarras.github.io/Fashion-VDM.

Summary

AI-Generated Summary

PDF72November 13, 2024