Codes de style : Encodage d'informations stylistiques pour la génération d'images
Stylecodes: Encoding Stylistic Information For Image Generation
November 19, 2024
Auteurs: Ciara Rowles
cs.AI
Résumé
Les modèles de diffusion excellent dans la génération d'images, mais les contrôler reste un défi. Nous nous concentrons sur le problème de la génération d'images conditionnée par le style. Bien que les images d'exemple fonctionnent, elles sont contraignantes : les srefs (codes de référence de style) de MidJourney résolvent ce problème en exprimant un style d'image spécifique dans un code numérique court. Ils ont été largement adoptés sur les réseaux sociaux en raison de leur facilité de partage et du fait qu'ils permettent d'utiliser une image pour contrôler le style, sans avoir à publier les images sources elles-mêmes. Cependant, les utilisateurs ne peuvent pas générer de srefs à partir de leurs propres images, et le procédé d'entraînement sous-jacent n'est pas public. Nous proposons StyleCodes : une architecture d'encodeur de style open-source et de recherche ouverte, ainsi qu'une procédure d'entraînement pour exprimer le style d'image sous la forme d'un code base64 de 20 symboles. Nos expériences montrent que notre encodage entraîne une perte minimale de qualité par rapport aux techniques traditionnelles d'image vers style.
English
Diffusion models excel in image generation, but controlling them remains a
challenge. We focus on the problem of style-conditioned image generation.
Although example images work, they are cumbersome: srefs (style-reference
codes) from MidJourney solve this issue by expressing a specific image style in
a short numeric code. These have seen widespread adoption throughout social
media due to both their ease of sharing and the fact they allow using an image
for style control, without having to post the source images themselves.
However, users are not able to generate srefs from their own images, nor is the
underlying training procedure public. We propose StyleCodes: an open-source and
open-research style encoder architecture and training procedure to express
image style as a 20-symbol base64 code. Our experiments show that our encoding
results in minimal loss in quality compared to traditional image-to-style
techniques.Summary
AI-Generated Summary