스타일 코드: 이미지 생성을 위한 스타일 정보 부호화
Stylecodes: Encoding Stylistic Information For Image Generation
November 19, 2024
저자: Ciara Rowles
cs.AI
초록
확산 모델은 이미지 생성에서 뛰어나지만, 그들을 제어하는 것은 여전히 어려운 과제입니다. 우리는 스타일 조건 이미지 생성 문제에 초점을 맞춥니다. 예시 이미지는 작동하지만 번거롭습니다: MidJourney의 srefs(스타일 참조 코드)는 특정 이미지 스타일을 짧은 숫자 코드로 표현하여 이 문제를 해결합니다. 이러한 코드는 소셜 미디어 전반에 널리 사용되고 있으며, 이미지를 스타일 제어에 사용할 수 있게 해주고 소스 이미지 자체를 게시하지 않아도 되기 때문에 쉽게 공유할 수 있습니다. 그러나 사용자는 자체 이미지에서 srefs를 생성할 수 없으며, 기본 학습 절차가 공개되어 있지 않습니다. 우리는 StyleCodes를 제안합니다: 이미지 스타일을 20자리 base64 코드로 표현하기 위한 오픈 소스 및 오픈 리서치 스타일 인코더 아키텍처 및 학습 절차입니다. 우리의 실험 결과는 우리의 인코딩이 전통적인 이미지-스타일 기술과 비교했을 때 품질 손실이 최소화된다는 것을 보여줍니다.
English
Diffusion models excel in image generation, but controlling them remains a
challenge. We focus on the problem of style-conditioned image generation.
Although example images work, they are cumbersome: srefs (style-reference
codes) from MidJourney solve this issue by expressing a specific image style in
a short numeric code. These have seen widespread adoption throughout social
media due to both their ease of sharing and the fact they allow using an image
for style control, without having to post the source images themselves.
However, users are not able to generate srefs from their own images, nor is the
underlying training procedure public. We propose StyleCodes: an open-source and
open-research style encoder architecture and training procedure to express
image style as a 20-symbol base64 code. Our experiments show that our encoding
results in minimal loss in quality compared to traditional image-to-style
techniques.Summary
AI-Generated Summary