Ein-Promt-Eine-Geschichte: Frei-Mittagessen konsistente Text-zu-Bild Generierung unter Verwendung eines einzigen Prompts
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt
January 23, 2025
Autoren: Tao Liu, Kai Wang, Senmao Li, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang, Ming-Ming Cheng
cs.AI
Zusammenfassung
Text-zu-Bild-Generierungsmodelle können hochwertige Bilder aus Eingabeanfragen erstellen. Sie haben jedoch Schwierigkeiten, die konsistente Generierung von Identität erhaltenden Anforderungen für das Geschichtenerzählen zu unterstützen. Bestehende Ansätze zu diesem Problem erfordern in der Regel umfangreiches Training in großen Datensätzen oder zusätzliche Modifikationen an den ursprünglichen Modellarchitekturen. Dies beschränkt ihre Anwendbarkeit in verschiedenen Bereichen und bei unterschiedlichen Diffusionsmodellkonfigurationen. In diesem Papier beobachten wir zunächst die inhärente Fähigkeit von Sprachmodellen, die als Kontextkonsistenz bezeichnet wird, Identität durch Kontext mit einer einzelnen Anfrage zu erfassen. Inspiriert von der inhärenten Kontextkonsistenz schlagen wir eine neuartige, trainingsfreie Methode für konsistente Text-zu-Bild (T2I)-Generierung vor, genannt "Ein-Anfrage-Eine-Geschichte" (1Prompt1Story). Unser Ansatz 1Prompt1Story konkateniert alle Anfragen zu einer einzelnen Eingabe für T2I-Diffusionsmodelle, wobei Charakteridentitäten zunächst erhalten bleiben. Wir verfeinern dann den Generierungsprozess mithilfe von zwei neuartigen Techniken: Singularwert-Neugewichtung und Identität-erhaltende Kreuz-Aufmerksamkeit, um eine bessere Ausrichtung mit der Eingabebeschreibung für jedes Bild sicherzustellen. In unseren Experimenten vergleichen wir unsere Methode mit verschiedenen bestehenden konsistenten T2I-Generierungsansätzen, um ihre Wirksamkeit anhand quantitativer Metriken und qualitativer Bewertungen zu demonstrieren. Der Code ist verfügbar unter https://github.com/byliutao/1Prompt1Story.
English
Text-to-image generation models can create high-quality images from input
prompts. However, they struggle to support the consistent generation of
identity-preserving requirements for storytelling. Existing approaches to this
problem typically require extensive training in large datasets or additional
modifications to the original model architectures. This limits their
applicability across different domains and diverse diffusion model
configurations. In this paper, we first observe the inherent capability of
language models, coined context consistency, to comprehend identity through
context with a single prompt. Drawing inspiration from the inherent context
consistency, we propose a novel training-free method for consistent
text-to-image (T2I) generation, termed "One-Prompt-One-Story" (1Prompt1Story).
Our approach 1Prompt1Story concatenates all prompts into a single input for T2I
diffusion models, initially preserving character identities. We then refine the
generation process using two novel techniques: Singular-Value Reweighting and
Identity-Preserving Cross-Attention, ensuring better alignment with the input
description for each frame. In our experiments, we compare our method against
various existing consistent T2I generation approaches to demonstrate its
effectiveness through quantitative metrics and qualitative assessments. Code is
available at https://github.com/byliutao/1Prompt1Story.Summary
AI-Generated Summary