Stilecodici: Codifica delle informazioni stilistiche per la generazione di immagini

Stylecodes: Encoding Stylistic Information For Image Generation

November 19, 2024
Autori: Ciara Rowles
cs.AI

Abstract

I modelli di diffusione eccellono nella generazione di immagini, ma controllarli rimane una sfida. Ci concentriamo sul problema della generazione di immagini condizionate allo stile. Sebbene le immagini di esempio funzionino, sono ingombranti: i srefs (codici di riferimento dello stile) di MidJourney risolvono questo problema esprimendo uno stile specifico di immagine in un breve codice numerico. Questi sono stati ampiamente adottati sui social media grazie alla facilità di condivisione e al fatto che consentono di utilizzare un'immagine per il controllo dello stile, senza dover pubblicare le immagini di origine stesse. Tuttavia, gli utenti non sono in grado di generare srefs dalle proprie immagini, né è pubblica la procedura di addestramento sottostante. Proponiamo StyleCodes: un'architettura di codifica dello stile open-source e di ricerca aperta insieme a una procedura di addestramento per esprimere lo stile dell'immagine come un codice base64 di 20 simboli. I nostri esperimenti mostrano che la nostra codifica comporta una perdita minima in termini di qualità rispetto alle tecniche tradizionali di immagine-a-stile.
English
Diffusion models excel in image generation, but controlling them remains a challenge. We focus on the problem of style-conditioned image generation. Although example images work, they are cumbersome: srefs (style-reference codes) from MidJourney solve this issue by expressing a specific image style in a short numeric code. These have seen widespread adoption throughout social media due to both their ease of sharing and the fact they allow using an image for style control, without having to post the source images themselves. However, users are not able to generate srefs from their own images, nor is the underlying training procedure public. We propose StyleCodes: an open-source and open-research style encoder architecture and training procedure to express image style as a 20-symbol base64 code. Our experiments show that our encoding results in minimal loss in quality compared to traditional image-to-style techniques.

Summary

AI-Generated Summary

PDF51November 21, 2024