CatV2TON: Die Bändigung von Diffusionstransformatoren für Vision-basiertes virtuelles Anprobieren mit zeitlicher Konkatenation
CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation
January 20, 2025
Autoren: Zheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang
cs.AI
Zusammenfassung
Die Virtual Try-On (VTON)-Technologie hat aufgrund ihres Potenzials, die Online-Einzelhandelsbranche durch die realistische Visualisierung von Kleidungsstücken in Bildern und Videos zu transformieren, Aufmerksamkeit erregt. Allerdings haben die meisten bestehenden Methoden Schwierigkeiten, hochwertige Ergebnisse bei Bild- und Video-Anprobetätigkeiten zu erzielen, insbesondere in langen Videoszenarien. In dieser Arbeit stellen wir CatV2TON vor, eine einfache und effektive, auf Vision basierende Virtual Try-On (V2TON)-Methode, die sowohl Bild- als auch Video-Anprobetätigkeiten mit einem einzigen Diffusionstransformer-Modell unterstützt. Durch die zeitliche Verknüpfung von Kleidungsstücken und Personeneingaben und das Training an einer Mischung aus Bild- und Videodatensätzen erzielt CatV2TON robuste Anprobeleistungen in statischen und dynamischen Umgebungen. Für die effiziente Generierung von langen Videos schlagen wir eine überlappende Clip-basierte Inferenzstrategie vor, die sequenzielle Rahmenführung und Adaptive Clip Normalization (AdaCN) verwendet, um die zeitliche Konsistenz bei reduziertem Ressourcenbedarf aufrechtzuerhalten. Wir präsentieren auch ViViD-S, einen verfeinerten Video-Anprobdatensatz, der durch Filterung von rückwärts gerichteten Rahmen und Anwendung von 3D-Maskenglättung zur Verbesserung der zeitlichen Konsistenz erreicht wurde. Umfassende Experimente zeigen, dass CatV2TON bestehende Methoden sowohl bei Bild- als auch bei Video-Anprobetätigkeiten übertrifft und eine vielseitige und zuverlässige Lösung für realistische virtuelle Anproben in verschiedenen Szenarien bietet.
English
Virtual try-on (VTON) technology has gained attention due to its potential to
transform online retail by enabling realistic clothing visualization of images
and videos. However, most existing methods struggle to achieve high-quality
results across image and video try-on tasks, especially in long video
scenarios. In this work, we introduce CatV2TON, a simple and effective
vision-based virtual try-on (V2TON) method that supports both image and video
try-on tasks with a single diffusion transformer model. By temporally
concatenating garment and person inputs and training on a mix of image and
video datasets, CatV2TON achieves robust try-on performance across static and
dynamic settings. For efficient long-video generation, we propose an
overlapping clip-based inference strategy that uses sequential frame guidance
and Adaptive Clip Normalization (AdaCN) to maintain temporal consistency with
reduced resource demands. We also present ViViD-S, a refined video try-on
dataset, achieved by filtering back-facing frames and applying 3D mask
smoothing for enhanced temporal consistency. Comprehensive experiments
demonstrate that CatV2TON outperforms existing methods in both image and video
try-on tasks, offering a versatile and reliable solution for realistic virtual
try-ons across diverse scenarios.Summary
AI-Generated Summary