Mode-VDM: Videodiffusionsmodell für virtuelles Anprobieren

Fashion-VDM: Video Diffusion Model for Virtual Try-On

October 31, 2024
Autoren: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman
cs.AI

Zusammenfassung

Wir präsentieren Fashion-VDM, ein Videodiffusionsmodell (VDM) zur Erzeugung virtueller Anproben-Videos. Ausgehend von einem Eingabebild des Kleidungsstücks und einem Personenvideo zielt unsere Methode darauf ab, ein qualitativ hochwertiges Anprobenvideo der Person zu generieren, die das gegebene Kleidungsstück trägt, wobei die Identität und Bewegung der Person erhalten bleiben. Die bildbasierte virtuelle Anprobe hat beeindruckende Ergebnisse gezeigt; jedoch fehlen den bestehenden Methoden für die videobasierte virtuelle Anprobe (VVT) immer noch Details zur Kleidung und zeitliche Konsistenz. Um diese Probleme anzugehen, schlagen wir eine auf Diffusion basierende Architektur für die videobasierte virtuelle Anprobe vor, eine klassifiziererfreie Aufteilung für eine erhöhte Kontrolle über die Konditionierungseingaben und eine progressive zeitliche Trainingsstrategie für die Generierung von Videos in einem Durchgang mit 64 Frames und 512px. Wir zeigen auch die Wirksamkeit des gemeinsamen Trainings von Bildern und Videos für die Videoanprobe, insbesondere wenn Videodaten begrenzt sind. Unsere qualitativen und quantitativen Experimente zeigen, dass unser Ansatz den neuen Stand der Technik für die videobasierte virtuelle Anprobe setzt. Für zusätzliche Ergebnisse besuchen Sie unsere Projektseite: https://johannakarras.github.io/Fashion-VDM.
English
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual try-on videos. Given an input garment image and person video, our method aims to generate a high-quality try-on video of the person wearing the given garment, while preserving the person's identity and motion. Image-based virtual try-on has shown impressive results; however, existing video virtual try-on (VVT) methods are still lacking garment details and temporal consistency. To address these issues, we propose a diffusion-based architecture for video virtual try-on, split classifier-free guidance for increased control over the conditioning inputs, and a progressive temporal training strategy for single-pass 64-frame, 512px video generation. We also demonstrate the effectiveness of joint image-video training for video try-on, especially when video data is limited. Our qualitative and quantitative experiments show that our approach sets the new state-of-the-art for video virtual try-on. For additional results, visit our project page: https://johannakarras.github.io/Fashion-VDM.

Summary

AI-Generated Summary

PDF72November 13, 2024