ChatPaper.aiChatPaper

한 프롬프트 한 이야기: 단일 프롬프트를 사용한 무료 식사 일관된 텍스트 대 이미지 생성

One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt

January 23, 2025
저자: Tao Liu, Kai Wang, Senmao Li, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang, Ming-Ming Cheng
cs.AI

초록

텍스트 대 이미지 생성 모델은 입력 프롬프트로부터 고품질 이미지를 생성할 수 있습니다. 그러나, 이러한 모델은 이야기를 위한 동일성 보존 요구사항을 일관되게 지원하는 데 어려움을 겪습니다. 이 문제에 대한 기존 접근 방식은 일반적으로 대규모 데이터셋에서의 광범위한 훈련이나 원본 모델 아키텍처에 대한 추가 수정을 필요로 합니다. 이는 다양한 도메인 및 다양한 확산 모델 구성에서의 적용 가능성을 제한합니다. 본 논문에서는 우선 언어 모델의 본질적 능력, 즉 맥락 일관성이라는 용어로 정의되는 것을 관찰하여 단일 프롬프트를 통해 맥락을 통해 동일성을 이해하는 능력을 제안합니다. 본 연구는 이러한 본질적 맥락 일관성에서 영감을 받아 일관된 텍스트 대 이미지 (T2I) 생성을 위한 훈련 없는 새로운 방법을 제안합니다. 이를 "한 프롬프트 한 이야기" (1Prompt1Story)라고 합니다. 접근 방식 1Prompt1Story는 모든 프롬프트를 T2I 확산 모델을 위한 단일 입력으로 연결하여 초기에 캐릭터 신원을 보존합니다. 그런 다음, 우리는 두 가지 새로운 기술, 특이값 재가중 및 신원 보존 교차 어텐션을 사용하여 생성 프로세스를 개선하여 각 프레임에 대한 입력 설명과의 더 나은 정렬을 보장합니다. 실험에서 우리는 우리의 방법을 다양한 기존 일관된 T2I 생성 접근 방식과 비교하여 그 효과를 양적 측정 및 질적 평가를 통해 보여줍니다. 코드는 https://github.com/byliutao/1Prompt1Story에서 사용할 수 있습니다.
English
Text-to-image generation models can create high-quality images from input prompts. However, they struggle to support the consistent generation of identity-preserving requirements for storytelling. Existing approaches to this problem typically require extensive training in large datasets or additional modifications to the original model architectures. This limits their applicability across different domains and diverse diffusion model configurations. In this paper, we first observe the inherent capability of language models, coined context consistency, to comprehend identity through context with a single prompt. Drawing inspiration from the inherent context consistency, we propose a novel training-free method for consistent text-to-image (T2I) generation, termed "One-Prompt-One-Story" (1Prompt1Story). Our approach 1Prompt1Story concatenates all prompts into a single input for T2I diffusion models, initially preserving character identities. We then refine the generation process using two novel techniques: Singular-Value Reweighting and Identity-Preserving Cross-Attention, ensuring better alignment with the input description for each frame. In our experiments, we compare our method against various existing consistent T2I generation approaches to demonstrate its effectiveness through quantitative metrics and qualitative assessments. Code is available at https://github.com/byliutao/1Prompt1Story.

Summary

AI-Generated Summary

PDF92January 24, 2025