Fashion-VDM: Modello di Diffusione Video per il Virtual Try-On
Fashion-VDM: Video Diffusion Model for Virtual Try-On
October 31, 2024
Autori: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman
cs.AI
Abstract
Presentiamo Fashion-VDM, un modello di diffusione video (VDM) per generare video di prova virtuali. Dato un'immagine di capo d'abbigliamento in input e un video di una persona, il nostro metodo mira a generare un video di prova di alta qualità della persona che indossa il capo d'abbigliamento fornito, preservando al contempo l'identità e il movimento della persona. Il video di prova virtuale basato sull'immagine ha mostrato risultati impressionanti; tuttavia, i metodi esistenti di prova virtuale video (VVT) ancora peccano di dettagli sull'abbigliamento e di coerenza temporale. Per affrontare tali problematiche, proponiamo un'architettura basata sulla diffusione per la prova virtuale video, una guida senza classificatore suddivisa per un maggiore controllo sui dati di condizionamento in ingresso e una strategia di addestramento temporale progressiva per la generazione di video a singolo passaggio di 64 frame, 512px. Dimostriamo inoltre l'efficacia dell'addestramento congiunto immagine-video per la prova video, specialmente quando i dati video sono limitati. I nostri esperimenti qualitativi e quantitativi mostrano che il nostro approccio stabilisce il nuovo stato dell'arte per la prova virtuale video. Per ulteriori risultati, visitate la nostra pagina del progetto: https://johannakarras.github.io/Fashion-VDM.
English
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual
try-on videos. Given an input garment image and person video, our method aims
to generate a high-quality try-on video of the person wearing the given
garment, while preserving the person's identity and motion. Image-based virtual
try-on has shown impressive results; however, existing video virtual try-on
(VVT) methods are still lacking garment details and temporal consistency. To
address these issues, we propose a diffusion-based architecture for video
virtual try-on, split classifier-free guidance for increased control over the
conditioning inputs, and a progressive temporal training strategy for
single-pass 64-frame, 512px video generation. We also demonstrate the
effectiveness of joint image-video training for video try-on, especially when
video data is limited. Our qualitative and quantitative experiments show that
our approach sets the new state-of-the-art for video virtual try-on. For
additional results, visit our project page:
https://johannakarras.github.io/Fashion-VDM.Summary
AI-Generated Summary