StyleMaster: Stilizza il tuo video con generazione e traduzione artistiche

StyleMaster: Stylize Your Video with Artistic Generation and Translation

December 10, 2024
Autori: Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo
cs.AI

Abstract

Il controllo dello stile è stato popolare nei modelli di generazione video. I metodi esistenti spesso generano video lontani dallo stile fornito, causano perdite di contenuto e faticano nel trasferire un video allo stile desiderato. La nostra prima osservazione è che l'importanza della fase di estrazione dello stile, mentre i metodi esistenti enfatizzano lo stile globale ma ignorano le texture locali. Per portare le caratteristiche delle texture evitando perdite di contenuto, filtriamo le patch correlate al contenuto mantenendo quelle dello stile in base alla similarità tra le patch; per l'estrazione dello stile globale, generiamo un dataset di stile accoppiato attraverso l'illusione del modello per facilitare l'apprendimento contrastivo, che migliora notevolmente la coerenza assoluta dello stile. Inoltre, per colmare il divario tra immagine e video, addestriamo un adattatore di movimento leggero su video fermi, che potenzia implicitamente l'estensione della stilizzazione e consente al nostro modello addestrato sull'immagine di essere applicato in modo fluido ai video. Grazie a questi sforzi, il nostro approccio, StyleMaster, non solo ottiene un miglioramento significativo sia nella somiglianza dello stile che nella coerenza temporale, ma può anche generalizzare facilmente al trasferimento di stile video con un ControlNet grigio. Estesi esperimenti e visualizzazioni dimostrano che StyleMaster supera significativamente i concorrenti, generando efficacemente video stilizzati di alta qualità che si allineano al contenuto testuale e assomigliano da vicino allo stile delle immagini di riferimento. La nostra pagina del progetto si trova su https://zixuan-ye.github.io/stylemaster.
English
Style control has been popular in video generation models. Existing methods often generate videos far from the given style, cause content leakage, and struggle to transfer one video to the desired style. Our first observation is that the style extraction stage matters, whereas existing methods emphasize global style but ignore local textures. In order to bring texture features while preventing content leakage, we filter content-related patches while retaining style ones based on prompt-patch similarity; for global style extraction, we generate a paired style dataset through model illusion to facilitate contrastive learning, which greatly enhances the absolute style consistency. Moreover, to fill in the image-to-video gap, we train a lightweight motion adapter on still videos, which implicitly enhances stylization extent, and enables our image-trained model to be seamlessly applied to videos. Benefited from these efforts, our approach, StyleMaster, not only achieves significant improvement in both style resemblance and temporal coherence, but also can easily generalize to video style transfer with a gray tile ControlNet. Extensive experiments and visualizations demonstrate that StyleMaster significantly outperforms competitors, effectively generating high-quality stylized videos that align with textual content and closely resemble the style of reference images. Our project page is at https://zixuan-ye.github.io/stylemaster

Summary

AI-Generated Summary

PDF193December 12, 2024