ChatPaper.aiChatPaper

스타일 마스터: 예술적 생성 및 번역으로 비디오 스타일링하기

StyleMaster: Stylize Your Video with Artistic Generation and Translation

December 10, 2024
저자: Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo
cs.AI

초록

비디오 생성 모델에서 스타일 제어는 인기가 있습니다. 기존 방법은 주어진 스타일과 거리가 먼 비디오를 생성하고, 콘텐츠 누출을 유발하며, 하나의 비디오를 원하는 스타일로 전환하는 데 어려움을 겪습니다. 우리의 첫 번째 관찰은 스타일 추출 단계가 중요하다는 것이며, 기존 방법은 전역 스타일을 강조하지만 지역적 질감을 무시합니다. 콘텐츠 누출을 방지하면서 질감 특징을 가져오기 위해, 우리는 프롬프트-패치 유사성에 기초하여 콘텐츠 관련 패치를 걸러내고 스타일 패치를 유지합니다. 전역 스타일 추출을 위해, 대조적 학습을 용이하게 하기 위해 모델 일루전을 통해 쌍으로 된 스타일 데이터셋을 생성합니다. 이는 절대적인 스타일 일관성을 크게 향상시킵니다. 더불어 이미지-비디오 간격을 메꾸기 위해, 우리는 정지된 비디오에서 가벼운 모션 어댑터를 훈련시킵니다. 이는 암묵적으로 스타일 적용 범위를 향상시키고 이미지로 훈련된 모델을 비디오에 매끄럽게 적용할 수 있도록 합니다. 이러한 노력의 결과로, 우리의 StyleMaster 접근 방식은 스타일 유사성과 시간적 일관성 모두에서 상당한 향상을 이루어내며, 그레이 타일 ControlNet을 사용하여 비디오 스타일 전송에 쉽게 일반화할 수 있습니다. 광범위한 실험과 시각화를 통해 StyleMaster가 경쟁 상대를 크게 능가하며, 텍스트 콘텐츠와 밀접하게 일치하며 참조 이미지의 스타일과 밀접하게 닮은 고품질 스타일화된 비디오를 효과적으로 생성한다는 것을 보여줍니다. 우리의 프로젝트 페이지는 https://zixuan-ye.github.io/stylemaster 에 있습니다.
English
Style control has been popular in video generation models. Existing methods often generate videos far from the given style, cause content leakage, and struggle to transfer one video to the desired style. Our first observation is that the style extraction stage matters, whereas existing methods emphasize global style but ignore local textures. In order to bring texture features while preventing content leakage, we filter content-related patches while retaining style ones based on prompt-patch similarity; for global style extraction, we generate a paired style dataset through model illusion to facilitate contrastive learning, which greatly enhances the absolute style consistency. Moreover, to fill in the image-to-video gap, we train a lightweight motion adapter on still videos, which implicitly enhances stylization extent, and enables our image-trained model to be seamlessly applied to videos. Benefited from these efforts, our approach, StyleMaster, not only achieves significant improvement in both style resemblance and temporal coherence, but also can easily generalize to video style transfer with a gray tile ControlNet. Extensive experiments and visualizations demonstrate that StyleMaster significantly outperforms competitors, effectively generating high-quality stylized videos that align with textual content and closely resemble the style of reference images. Our project page is at https://zixuan-ye.github.io/stylemaster

Summary

AI-Generated Summary

PDF193December 12, 2024