Stilcodes: Codierung stilistischer Informationen für die Bildgenerierung
Stylecodes: Encoding Stylistic Information For Image Generation
November 19, 2024
Autoren: Ciara Rowles
cs.AI
Zusammenfassung
Diffusionsmodelle zeichnen sich durch ihre Leistungsfähigkeit bei der Bildgenerierung aus, aber ihre Kontrolle bleibt eine Herausforderung. Wir konzentrieren uns auf das Problem der stilbedingten Bildgenerierung. Obwohl Beispielimplementierungen funktionieren, sind sie umständlich: srefs (Stil-Referenzcodes) von MidJourney lösen dieses Problem, indem sie einen spezifischen Bildstil in einem kurzen numerischen Code ausdrücken. Diese sind aufgrund ihrer einfachen Weitergabe weit verbreitet in sozialen Medien und ermöglichen die Verwendung eines Bildes zur Stilsteuerung, ohne die Quellbilder selbst veröffentlichen zu müssen. Allerdings können Benutzer keine srefs aus ihren eigenen Bildern generieren, und das zugrunde liegende Schulungsverfahren ist nicht öffentlich. Wir schlagen StyleCodes vor: eine Open-Source- und Open-Research-Stil-Encoder-Architektur und Schulungsverfahren, um Bildstile als 20-Symbol-Base64-Code auszudrücken. Unsere Experimente zeigen, dass unsere Codierung im Vergleich zu traditionellen Bild-zu-Stil-Techniken zu minimalen Qualitätsverlusten führt.
English
Diffusion models excel in image generation, but controlling them remains a
challenge. We focus on the problem of style-conditioned image generation.
Although example images work, they are cumbersome: srefs (style-reference
codes) from MidJourney solve this issue by expressing a specific image style in
a short numeric code. These have seen widespread adoption throughout social
media due to both their ease of sharing and the fact they allow using an image
for style control, without having to post the source images themselves.
However, users are not able to generate srefs from their own images, nor is the
underlying training procedure public. We propose StyleCodes: an open-source and
open-research style encoder architecture and training procedure to express
image style as a 20-symbol base64 code. Our experiments show that our encoding
results in minimal loss in quality compared to traditional image-to-style
techniques.Summary
AI-Generated Summary