Fashion-VDM : Modèle de Diffusion Vidéo pour l'Essayage Virtuel
Fashion-VDM: Video Diffusion Model for Virtual Try-On
October 31, 2024
Auteurs: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman
cs.AI
Résumé
Nous présentons Fashion-VDM, un modèle de diffusion vidéo (VDM) pour générer des vidéos d'essayage virtuel. Étant donné une image de vêtement en entrée et une vidéo de personne, notre méthode vise à générer une vidéo d'essayage de haute qualité de la personne portant le vêtement donné, tout en préservant l'identité et le mouvement de la personne. L'essayage virtuel basé sur l'image a montré des résultats impressionnants; cependant, les méthodes d'essayage virtuel vidéo (VVT) existantes manquent encore de détails de vêtements et de cohérence temporelle. Pour résoudre ces problèmes, nous proposons une architecture basée sur la diffusion pour l'essayage virtuel vidéo, un guidage sans classificateur fractionné pour un contrôle accru sur les entrées de conditionnement, et une stratégie d'entraînement temporel progressif pour la génération de vidéos de 64 images en une seule passe, de 512px. Nous démontrons également l'efficacité de l'entraînement conjoint image-vidéo pour l'essayage vidéo, en particulier lorsque les données vidéo sont limitées. Nos expériences qualitatives et quantitatives montrent que notre approche établit le nouvel état de l'art pour l'essayage virtuel vidéo. Pour des résultats supplémentaires, visitez notre page de projet: https://johannakarras.github.io/Fashion-VDM.
English
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual
try-on videos. Given an input garment image and person video, our method aims
to generate a high-quality try-on video of the person wearing the given
garment, while preserving the person's identity and motion. Image-based virtual
try-on has shown impressive results; however, existing video virtual try-on
(VVT) methods are still lacking garment details and temporal consistency. To
address these issues, we propose a diffusion-based architecture for video
virtual try-on, split classifier-free guidance for increased control over the
conditioning inputs, and a progressive temporal training strategy for
single-pass 64-frame, 512px video generation. We also demonstrate the
effectiveness of joint image-video training for video try-on, especially when
video data is limited. Our qualitative and quantitative experiments show that
our approach sets the new state-of-the-art for video virtual try-on. For
additional results, visit our project page:
https://johannakarras.github.io/Fashion-VDM.Summary
AI-Generated Summary