Campione di rapporto segnale-rumore (SNR) amico dello stile per la generazione guidata dallo stile
Style-Friendly SNR Sampler for Style-Driven Generation
November 22, 2024
Autori: Jooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon
cs.AI
Abstract
I modelli di diffusione su larga scala recenti generano immagini di alta qualità ma faticano a imparare nuovi stili artistici personalizzati, il che limita la creazione di modelli di stile unici. Il raffinamento con immagini di riferimento è l'approccio più promettente, ma spesso utilizza in modo acritico obiettivi e distribuzioni di livello di rumore utilizzati per il pre-addestramento, portando a un allineamento dello stile non ottimale. Proponiamo il campionatore Style-friendly SNR, che sposta aggressivamente la distribuzione del rapporto segnale-rumore (SNR) verso livelli di rumore più alti durante il raffinamento per concentrarsi sui livelli di rumore in cui emergono le caratteristiche stilistiche. Ciò consente ai modelli di catturare meglio stili unici e generare immagini con un allineamento di stile superiore. Il nostro metodo permette ai modelli di diffusione di apprendere e condividere nuovi "modelli di stile", migliorando la creazione di contenuti personalizzati. Dimostriamo la capacità di generare stili come dipinti personali ad acquerello, cartoni piatti minimali, rendering 3D, immagini a più pannelli e meme con testo, ampliando così la portata della generazione guidata dallo stile.
English
Recent large-scale diffusion models generate high-quality images but struggle
to learn new, personalized artistic styles, which limits the creation of unique
style templates. Fine-tuning with reference images is the most promising
approach, but it often blindly utilizes objectives and noise level
distributions used for pre-training, leading to suboptimal style alignment. We
propose the Style-friendly SNR sampler, which aggressively shifts the
signal-to-noise ratio (SNR) distribution toward higher noise levels during
fine-tuning to focus on noise levels where stylistic features emerge. This
enables models to better capture unique styles and generate images with higher
style alignment. Our method allows diffusion models to learn and share new
"style templates", enhancing personalized content creation. We demonstrate the
ability to generate styles such as personal watercolor paintings, minimal flat
cartoons, 3D renderings, multi-panel images, and memes with text, thereby
broadening the scope of style-driven generation.Summary
AI-Generated Summary