Stijlcodes: Codering van Stilistische Informatie voor Beeldgeneratie
Stylecodes: Encoding Stylistic Information For Image Generation
November 19, 2024
Auteurs: Ciara Rowles
cs.AI
Samenvatting
Diffusiemodellen blinken uit in beeldgeneratie, maar het controleren ervan blijft een uitdaging. We richten ons op het probleem van stijl-geconditioneerde beeldgeneratie. Hoewel voorbeeldafbeeldingen werken, zijn ze omslachtig: srefs (stijl-referentiecodes) van MidJourney lossen dit probleem op door een specifieke beeldstijl uit te drukken in een kort numerieke code. Deze zijn wijdverbreid overgenomen op sociale media vanwege zowel het gemak van delen als het feit dat ze het gebruik van een afbeelding voor stijlcontrole mogelijk maken, zonder de bronafbeeldingen zelf te hoeven plaatsen. Gebruikers kunnen echter geen srefs genereren vanuit hun eigen afbeeldingen, noch is de onderliggende trainingsprocedure openbaar. Wij stellen StyleCodes voor: een open-source en open-onderzoek stijl-encoderarchitectuur en trainingsprocedure om beeldstijl uit te drukken als een 20-symbool base64-code. Onze experimenten tonen aan dat onze codering resulteert in minimaal verlies in kwaliteit in vergelijking met traditionele beeld-naar-stijl technieken.
English
Diffusion models excel in image generation, but controlling them remains a
challenge. We focus on the problem of style-conditioned image generation.
Although example images work, they are cumbersome: srefs (style-reference
codes) from MidJourney solve this issue by expressing a specific image style in
a short numeric code. These have seen widespread adoption throughout social
media due to both their ease of sharing and the fact they allow using an image
for style control, without having to post the source images themselves.
However, users are not able to generate srefs from their own images, nor is the
underlying training procedure public. We propose StyleCodes: an open-source and
open-research style encoder architecture and training procedure to express
image style as a 20-symbol base64 code. Our experiments show that our encoding
results in minimal loss in quality compared to traditional image-to-style
techniques.Summary
AI-Generated Summary