Codes de style : Encodage d'informations stylistiques pour la génération d'images

Stylecodes: Encoding Stylistic Information For Image Generation

November 19, 2024
Auteurs: Ciara Rowles
cs.AI

Résumé

Les modèles de diffusion excellent dans la génération d'images, mais les contrôler reste un défi. Nous nous concentrons sur le problème de la génération d'images conditionnée par le style. Bien que les images d'exemple fonctionnent, elles sont contraignantes : les srefs (codes de référence de style) de MidJourney résolvent ce problème en exprimant un style d'image spécifique dans un code numérique court. Ils ont été largement adoptés sur les réseaux sociaux en raison de leur facilité de partage et du fait qu'ils permettent d'utiliser une image pour contrôler le style, sans avoir à publier les images sources elles-mêmes. Cependant, les utilisateurs ne peuvent pas générer de srefs à partir de leurs propres images, et le procédé d'entraînement sous-jacent n'est pas public. Nous proposons StyleCodes : une architecture d'encodeur de style open-source et de recherche ouverte, ainsi qu'une procédure d'entraînement pour exprimer le style d'image sous la forme d'un code base64 de 20 symboles. Nos expériences montrent que notre encodage entraîne une perte minimale de qualité par rapport aux techniques traditionnelles d'image vers style.
English
Diffusion models excel in image generation, but controlling them remains a challenge. We focus on the problem of style-conditioned image generation. Although example images work, they are cumbersome: srefs (style-reference codes) from MidJourney solve this issue by expressing a specific image style in a short numeric code. These have seen widespread adoption throughout social media due to both their ease of sharing and the fact they allow using an image for style control, without having to post the source images themselves. However, users are not able to generate srefs from their own images, nor is the underlying training procedure public. We propose StyleCodes: an open-source and open-research style encoder architecture and training procedure to express image style as a 20-symbol base64 code. Our experiments show that our encoding results in minimal loss in quality compared to traditional image-to-style techniques.

Summary

AI-Generated Summary

PDF72November 21, 2024