스토리메이커: 텍스트에서 이미지로의 일관된 캐릭터를 향한 종합적인 접근
StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation
September 19, 2024
저자: Zhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang
cs.AI
초록
튜닝 없이 개인 맞춤형 이미지 생성 방법은 얼굴 일관성, 즉 신원을 유지하는 데 상당한 성과를 거두었습니다. 그러나 여러 캐릭터가 등장하는 장면에서 전체적인 일관성의 부족으로 인해 이러한 방법들은 일관된 이야기를 만들기 어려워합니다. 본 논문에서는 얼굴 일관성 뿐만 아니라 의상, 헤어스타일 및 신체 일관성을 보존하는 개인화 솔루션인 StoryMaker를 소개합니다. 이를 통해 이미지 시리즈를 통해 이야기를 만드는 것을 용이하게 합니다. StoryMaker는 얼굴 신원과 의상, 헤어스타일 및 신체를 포함한 잘린 캐릭터 이미지에 기반한 조건을 통합합니다. 구체적으로, 우리는 Positional-aware Perceiver Resampler (PPR)를 사용하여 얼굴 신원 정보를 잘린 캐릭터 이미지와 통합하여 독특한 캐릭터 특징을 얻습니다. 다중 캐릭터와 배경의 혼합을 방지하기 위해 서로 다른 캐릭터와 배경의 교차 주의 영역을 MSE 손실과 분할 마스크를 사용하여 별도로 제한합니다. 또한 자세에 조건을 걸어 생성 네트워크를 훈련하여 자세와 독립성을 촉진합니다. LoRA도 사용하여 충실도와 품질을 향상시킵니다. 실험은 우리의 방법의 효과를 강조합니다. StoryMaker는 다양한 응용 프로그램을 지원하며 다른 사회적 플러그인과 호환됩니다. 소스 코드와 모델 가중치는 https://github.com/RedAIGC/StoryMaker에서 사용할 수 있습니다.
English
Tuning-free personalized image generation methods have achieved significant
success in maintaining facial consistency, i.e., identities, even with multiple
characters. However, the lack of holistic consistency in scenes with multiple
characters hampers these methods' ability to create a cohesive narrative. In
this paper, we introduce StoryMaker, a personalization solution that preserves
not only facial consistency but also clothing, hairstyles, and body
consistency, thus facilitating the creation of a story through a series of
images. StoryMaker incorporates conditions based on face identities and cropped
character images, which include clothing, hairstyles, and bodies. Specifically,
we integrate the facial identity information with the cropped character images
using the Positional-aware Perceiver Resampler (PPR) to obtain distinct
character features. To prevent intermingling of multiple characters and the
background, we separately constrain the cross-attention impact regions of
different characters and the background using MSE loss with segmentation masks.
Additionally, we train the generation network conditioned on poses to promote
decoupling from poses. A LoRA is also employed to enhance fidelity and quality.
Experiments underscore the effectiveness of our approach. StoryMaker supports
numerous applications and is compatible with other societal plug-ins. Our
source codes and model weights are available at
https://github.com/RedAIGC/StoryMaker.Summary
AI-Generated Summary