AnyStory: 텍스트에서 이미지 생성을 위한 통합된 단일 및 다중 주제 개인화 방향
AnyStory: Towards Unified Single and Multiple Subject Personalization in Text-to-Image Generation
January 16, 2025
저자: Junjie He, Yuxiang Tuo, Binghui Chen, Chongyang Zhong, Yifeng Geng, Liefeng Bo
cs.AI
초록
최근 대규모 생성 모델은 탁월한 텍스트 대 이미지 생성 능력을 보여주었습니다. 그러나 특정 주제로 고품질의 개인화된 이미지를 생성하는 것은 여전히 어려운 과제를 제기하고 있습니다, 특히 여러 주제가 포함된 경우에는 더 그렇습니다. 본 논문에서는 개인화된 주제 생성을 위한 통합 접근 방식인 AnyStory를 제안합니다. AnyStory는 단일 주제에 대한 고품질의 개인화를 달성하는 동시에 여러 주제에 대해서도 주제의 충실도를 희생하지 않고 처리합니다. 구체적으로 AnyStory는 주제 개인화 문제를 "인코딩 후 라우팅" 방식으로 모델링합니다. 인코딩 단계에서 AnyStory는 참조 네트 ReferenceNet과 CLIP 비전 인코더를 활용하여 주제 특징의 고품질 인코딩을 달성합니다. 라우팅 단계에서 AnyStory는 분리된 인스턴스 인식 주제 라우터를 활용하여 해당 주제의 잠재 공간 내 잠재적인 위치를 정확하게 인식하고 예측하며 주제 조건의 주입을 안내합니다. 자세한 실험 결과는 주제 세부 정보의 유지, 텍스트 설명과의 일치, 그리고 여러 주제에 대한 개인화에 대한 우수한 성능을 보여주고 있습니다. 프로젝트 페이지는 https://aigcdesigngroup.github.io/AnyStory/ 에서 확인하실 수 있습니다.
English
Recently, large-scale generative models have demonstrated outstanding
text-to-image generation capabilities. However, generating high-fidelity
personalized images with specific subjects still presents challenges,
especially in cases involving multiple subjects. In this paper, we propose
AnyStory, a unified approach for personalized subject generation. AnyStory not
only achieves high-fidelity personalization for single subjects, but also for
multiple subjects, without sacrificing subject fidelity. Specifically, AnyStory
models the subject personalization problem in an "encode-then-route" manner. In
the encoding step, AnyStory utilizes a universal and powerful image encoder,
i.e., ReferenceNet, in conjunction with CLIP vision encoder to achieve
high-fidelity encoding of subject features. In the routing step, AnyStory
utilizes a decoupled instance-aware subject router to accurately perceive and
predict the potential location of the corresponding subject in the latent
space, and guide the injection of subject conditions. Detailed experimental
results demonstrate the excellent performance of our method in retaining
subject details, aligning text descriptions, and personalizing for multiple
subjects. The project page is at https://aigcdesigngroup.github.io/AnyStory/ .Summary
AI-Generated Summary