MagicTailor: Komponentensteuerbare Personalisierung in Text-zu-Bild-Diffusionsmodellen
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models
October 17, 2024
Autoren: Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei Text-zu-Bild (T2I) Diffusionsmodellen die Erstellung hochwertiger Bilder aus Textvorgaben ermöglicht, aber sie haben immer noch Schwierigkeiten, Bilder mit präziser Kontrolle über spezifische visuelle Konzepte zu generieren. Bestehende Ansätze können ein gegebenes Konzept replizieren, indem sie von Referenzbildern lernen, jedoch fehlt es ihnen an Flexibilität für die fein abgestufte Anpassung der einzelnen Komponenten innerhalb des Konzepts. In diesem Papier stellen wir die komponentensteuerbare Personalisierung vor, eine neuartige Aufgabe, die die Grenzen von T2I-Modellen erweitert, indem Benutzern ermöglicht wird, spezifische Komponenten neu zu konfigurieren, wenn sie visuelle Konzepte personalisieren. Diese Aufgabe ist besonders herausfordernd aufgrund von zwei Hauptproblemen: semantische Verschmutzung, bei der unerwünschte visuelle Elemente das personalisierte Konzept verunreinigen, und semantische Ungleichgewicht, das zu einer unverhältnismäßigen Lernweise des Konzepts und der Komponente führt. Um diese Herausforderungen zu überwinden, entwerfen wir MagicTailor, ein innovatives Framework, das Dynamische Maskierte Degradation (DM-Deg) nutzt, um unerwünschte visuelle Semantik dynamisch zu stören, und Dual-Stream Balancing (DS-Bal) verwendet, um ein ausgewogenes Lernparadigma für gewünschte visuelle Semantik zu etablieren. Umfangreiche Vergleiche, Ablationen und Analysen zeigen, dass MagicTailor nicht nur in dieser anspruchsvollen Aufgabe herausragt, sondern auch bedeutendes Potenzial für praktische Anwendungen bietet und den Weg für nuanciertere und kreativere Bildgenerierung ebnet.
English
Recent advancements in text-to-image (T2I) diffusion models have enabled the
creation of high-quality images from text prompts, but they still struggle to
generate images with precise control over specific visual concepts. Existing
approaches can replicate a given concept by learning from reference images, yet
they lack the flexibility for fine-grained customization of the individual
component within the concept. In this paper, we introduce
component-controllable personalization, a novel task that pushes the boundaries
of T2I models by allowing users to reconfigure specific components when
personalizing visual concepts. This task is particularly challenging due to two
primary obstacles: semantic pollution, where unwanted visual elements corrupt
the personalized concept, and semantic imbalance, which causes disproportionate
learning of the concept and component. To overcome these challenges, we design
MagicTailor, an innovative framework that leverages Dynamic Masked Degradation
(DM-Deg) to dynamically perturb undesired visual semantics and Dual-Stream
Balancing (DS-Bal) to establish a balanced learning paradigm for desired visual
semantics. Extensive comparisons, ablations, and analyses demonstrate that
MagicTailor not only excels in this challenging task but also holds significant
promise for practical applications, paving the way for more nuanced and
creative image generation.Summary
AI-Generated Summary