Mode-VDM: Videodiffusionsmodell für virtuelles Anprobieren
Fashion-VDM: Video Diffusion Model for Virtual Try-On
October 31, 2024
Autoren: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman
cs.AI
Zusammenfassung
Wir präsentieren Fashion-VDM, ein Videodiffusionsmodell (VDM) zur Erzeugung virtueller Anproben-Videos. Ausgehend von einem Eingabebild des Kleidungsstücks und einem Personenvideo zielt unsere Methode darauf ab, ein qualitativ hochwertiges Anprobenvideo der Person zu generieren, die das gegebene Kleidungsstück trägt, wobei die Identität und Bewegung der Person erhalten bleiben. Die bildbasierte virtuelle Anprobe hat beeindruckende Ergebnisse gezeigt; jedoch fehlen den bestehenden Methoden für die videobasierte virtuelle Anprobe (VVT) immer noch Details zur Kleidung und zeitliche Konsistenz. Um diese Probleme anzugehen, schlagen wir eine auf Diffusion basierende Architektur für die videobasierte virtuelle Anprobe vor, eine klassifiziererfreie Aufteilung für eine erhöhte Kontrolle über die Konditionierungseingaben und eine progressive zeitliche Trainingsstrategie für die Generierung von Videos in einem Durchgang mit 64 Frames und 512px. Wir zeigen auch die Wirksamkeit des gemeinsamen Trainings von Bildern und Videos für die Videoanprobe, insbesondere wenn Videodaten begrenzt sind. Unsere qualitativen und quantitativen Experimente zeigen, dass unser Ansatz den neuen Stand der Technik für die videobasierte virtuelle Anprobe setzt. Für zusätzliche Ergebnisse besuchen Sie unsere Projektseite: https://johannakarras.github.io/Fashion-VDM.
English
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual
try-on videos. Given an input garment image and person video, our method aims
to generate a high-quality try-on video of the person wearing the given
garment, while preserving the person's identity and motion. Image-based virtual
try-on has shown impressive results; however, existing video virtual try-on
(VVT) methods are still lacking garment details and temporal consistency. To
address these issues, we propose a diffusion-based architecture for video
virtual try-on, split classifier-free guidance for increased control over the
conditioning inputs, and a progressive temporal training strategy for
single-pass 64-frame, 512px video generation. We also demonstrate the
effectiveness of joint image-video training for video try-on, especially when
video data is limited. Our qualitative and quantitative experiments show that
our approach sets the new state-of-the-art for video virtual try-on. For
additional results, visit our project page:
https://johannakarras.github.io/Fashion-VDM.Summary
AI-Generated Summary