Ein-Promt-Eine-Geschichte: Frei-Mittagessen konsistente Text-zu-Bild Generierung unter Verwendung eines einzigen Prompts

Zusammenfassung

Text-zu-Bild-Generierungsmodelle können hochwertige Bilder aus Eingabeanfragen erstellen. Sie haben jedoch Schwierigkeiten, die konsistente Generierung von Identität erhaltenden Anforderungen für das Geschichtenerzählen zu unterstützen. Bestehende Ansätze zu diesem Problem erfordern in der Regel umfangreiches Training in großen Datensätzen oder zusätzliche Modifikationen an den ursprünglichen Modellarchitekturen. Dies beschränkt ihre Anwendbarkeit in verschiedenen Bereichen und bei unterschiedlichen Diffusionsmodellkonfigurationen. In diesem Papier beobachten wir zunächst die inhärente Fähigkeit von Sprachmodellen, die als Kontextkonsistenz bezeichnet wird, Identität durch Kontext mit einer einzelnen Anfrage zu erfassen. Inspiriert von der inhärenten Kontextkonsistenz schlagen wir eine neuartige, trainingsfreie Methode für konsistente Text-zu-Bild (T2I)-Generierung vor, genannt "Ein-Anfrage-Eine-Geschichte" (1Prompt1Story). Unser Ansatz 1Prompt1Story konkateniert alle Anfragen zu einer einzelnen Eingabe für T2I-Diffusionsmodelle, wobei Charakteridentitäten zunächst erhalten bleiben. Wir verfeinern dann den Generierungsprozess mithilfe von zwei neuartigen Techniken: Singularwert-Neugewichtung und Identität-erhaltende Kreuz-Aufmerksamkeit, um eine bessere Ausrichtung mit der Eingabebeschreibung für jedes Bild sicherzustellen. In unseren Experimenten vergleichen wir unsere Methode mit verschiedenen bestehenden konsistenten T2I-Generierungsansätzen, um ihre Wirksamkeit anhand quantitativer Metriken und qualitativer Bewertungen zu demonstrieren. Der Code ist verfügbar unter https://github.com/byliutao/1Prompt1Story.

English

Text-to-image generation models can create high-quality images from input prompts. However, they struggle to support the consistent generation of identity-preserving requirements for storytelling. Existing approaches to this problem typically require extensive training in large datasets or additional modifications to the original model architectures. This limits their applicability across different domains and diverse diffusion model configurations. In this paper, we first observe the inherent capability of language models, coined context consistency, to comprehend identity through context with a single prompt. Drawing inspiration from the inherent context consistency, we propose a novel training-free method for consistent text-to-image (T2I) generation, termed "One-Prompt-One-Story" (1Prompt1Story). Our approach 1Prompt1Story concatenates all prompts into a single input for T2I diffusion models, initially preserving character identities. We then refine the generation process using two novel techniques: Singular-Value Reweighting and Identity-Preserving Cross-Attention, ensuring better alignment with the input description for each frame. In our experiments, we compare our method against various existing consistent T2I generation approaches to demonstrate its effectiveness through quantitative metrics and qualitative assessments. Code is available at https://github.com/byliutao/1Prompt1Story.

Ein-Promt-Eine-Geschichte: Frei-Mittagessen konsistente Text-zu-Bild Generierung unter Verwendung eines einzigen Prompts

One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt

Zusammenfassung

Summary

Support

Support