ChatPaper.aiChatPaper

CatV2TON: 시각 기반 가상 착용을 위한 확산 트랜스포머를 시간적 연결로 다루다

CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation

January 20, 2025
저자: Zheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang
cs.AI

초록

가상 시착(VTON) 기술은 이미지와 비디오의 현실적인 의류 시각화를 가능하게 함으로써 온라인 소매를 변화시킬 잠재력으로 인해 주목을 받고 있습니다. 그러나 대부분의 기존 방법은 특히 긴 비디오 시나리오에서 고품질 결과를 달성하기 어려워합니다. 본 연구에서는 이미지 및 비디오 시착 작업에서 단일 확산 트랜스포머 모델을 지원하는 간단하고 효과적인 시각 기반 가상 시착(V2TON) 방법인 CatV2TON을 소개합니다. 의류와 사람 입력을 시간적으로 연결하고 이미지 및 비디오 데이터셋의 혼합으로 훈련함으로써 CatV2TON은 정적 및 동적 환경에서 견고한 시착 성능을 달성합니다. 효율적인 긴 비디오 생성을 위해 순차 프레임 가이드 및 적응 클립 정규화(AdaCN)를 사용하는 중첩 클립 기반 추론 전략을 제안합니다. 또한 향상된 시간적 일관성을 위해 후면 프레임을 필터링하고 3D 마스크 스무딩을 적용하여 달성된 ViViD-S라는 정제된 비디오 시착 데이터셋을 제시합니다. 포괄적인 실험은 CatV2TON이 이미지 및 비디오 시착 작업에서 기존 방법을 능가하며 다양한 시나리오에서 현실적인 가상 시착을 위한 다재다능하고 신뢰할 수 있는 솔루션을 제공함을 입증합니다.
English
Virtual try-on (VTON) technology has gained attention due to its potential to transform online retail by enabling realistic clothing visualization of images and videos. However, most existing methods struggle to achieve high-quality results across image and video try-on tasks, especially in long video scenarios. In this work, we introduce CatV2TON, a simple and effective vision-based virtual try-on (V2TON) method that supports both image and video try-on tasks with a single diffusion transformer model. By temporally concatenating garment and person inputs and training on a mix of image and video datasets, CatV2TON achieves robust try-on performance across static and dynamic settings. For efficient long-video generation, we propose an overlapping clip-based inference strategy that uses sequential frame guidance and Adaptive Clip Normalization (AdaCN) to maintain temporal consistency with reduced resource demands. We also present ViViD-S, a refined video try-on dataset, achieved by filtering back-facing frames and applying 3D mask smoothing for enhanced temporal consistency. Comprehensive experiments demonstrate that CatV2TON outperforms existing methods in both image and video try-on tasks, offering a versatile and reliable solution for realistic virtual try-ons across diverse scenarios.

Summary

AI-Generated Summary

PDF43January 27, 2025