StyleStudio: Trasferimento dello stile basato sul testo con controllo selettivo degli elementi dello stile
StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements
December 11, 2024
Autori: Mingkun Lei, Xue Song, Beier Zhu, Hao Wang, Chi Zhang
cs.AI
Abstract
Il trasferimento di stile guidato dal testo mira a fondere lo stile di un'immagine di riferimento con il contenuto descritto da un prompt di testo. Gli avanzamenti recenti nei modelli di testo-immagine hanno migliorato la sottigliezza delle trasformazioni di stile, tuttavia rimangono sfide significative, in particolare con l'adattamento eccessivo agli stili di riferimento, limitando il controllo stilistico e disallineandosi con il contenuto testuale. In questo articolo, proponiamo tre strategie complementari per affrontare questi problemi. In primo luogo, introduciamo un meccanismo di Normalizzazione dell'Istanza Adattiva (AdaIN) cross-modale per una migliore integrazione di stile e caratteristiche del testo, migliorando l'allineamento. In secondo luogo, sviluppiamo un approccio Guida basata sullo Stile senza Classificatore (SCFG) che consente un controllo selettivo sugli elementi stilistici, riducendo influenze non rilevanti. Infine, incorporiamo un modello di insegnante durante le fasi iniziali di generazione per stabilizzare i layout spaziali e mitigare artefatti. Le nostre valutazioni approfondite dimostrano miglioramenti significativi nella qualità del trasferimento di stile e nell'allineamento con i prompt testuali. Inoltre, il nostro approccio può essere integrato nei framework di trasferimento di stile esistenti senza sintonizzazione fine.
English
Text-driven style transfer aims to merge the style of a reference image with
content described by a text prompt. Recent advancements in text-to-image models
have improved the nuance of style transformations, yet significant challenges
remain, particularly with overfitting to reference styles, limiting stylistic
control, and misaligning with textual content. In this paper, we propose three
complementary strategies to address these issues. First, we introduce a
cross-modal Adaptive Instance Normalization (AdaIN) mechanism for better
integration of style and text features, enhancing alignment. Second, we develop
a Style-based Classifier-Free Guidance (SCFG) approach that enables selective
control over stylistic elements, reducing irrelevant influences. Finally, we
incorporate a teacher model during early generation stages to stabilize spatial
layouts and mitigate artifacts. Our extensive evaluations demonstrate
significant improvements in style transfer quality and alignment with textual
prompts. Furthermore, our approach can be integrated into existing style
transfer frameworks without fine-tuning.Summary
AI-Generated Summary