Fashion-VDM: Modello di Diffusione Video per il Virtual Try-On

Fashion-VDM: Video Diffusion Model for Virtual Try-On

October 31, 2024
Autori: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman
cs.AI

Abstract

Presentiamo Fashion-VDM, un modello di diffusione video (VDM) per generare video di prova virtuali. Dato un'immagine di capo d'abbigliamento in input e un video di una persona, il nostro metodo mira a generare un video di prova di alta qualità della persona che indossa il capo d'abbigliamento fornito, preservando al contempo l'identità e il movimento della persona. Il video di prova virtuale basato sull'immagine ha mostrato risultati impressionanti; tuttavia, i metodi esistenti di prova virtuale video (VVT) ancora peccano di dettagli sull'abbigliamento e di coerenza temporale. Per affrontare tali problematiche, proponiamo un'architettura basata sulla diffusione per la prova virtuale video, una guida senza classificatore suddivisa per un maggiore controllo sui dati di condizionamento in ingresso e una strategia di addestramento temporale progressiva per la generazione di video a singolo passaggio di 64 frame, 512px. Dimostriamo inoltre l'efficacia dell'addestramento congiunto immagine-video per la prova video, specialmente quando i dati video sono limitati. I nostri esperimenti qualitativi e quantitativi mostrano che il nostro approccio stabilisce il nuovo stato dell'arte per la prova virtuale video. Per ulteriori risultati, visitate la nostra pagina del progetto: https://johannakarras.github.io/Fashion-VDM.
English
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual try-on videos. Given an input garment image and person video, our method aims to generate a high-quality try-on video of the person wearing the given garment, while preserving the person's identity and motion. Image-based virtual try-on has shown impressive results; however, existing video virtual try-on (VVT) methods are still lacking garment details and temporal consistency. To address these issues, we propose a diffusion-based architecture for video virtual try-on, split classifier-free guidance for increased control over the conditioning inputs, and a progressive temporal training strategy for single-pass 64-frame, 512px video generation. We also demonstrate the effectiveness of joint image-video training for video try-on, especially when video data is limited. Our qualitative and quantitative experiments show that our approach sets the new state-of-the-art for video virtual try-on. For additional results, visit our project page: https://johannakarras.github.io/Fashion-VDM.

Summary

AI-Generated Summary

PDF92November 13, 2024