MagicTailor: Komponentensteuerbare Personalisierung in Text-zu-Bild-Diffusionsmodellen

MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

October 17, 2024
Autoren: Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte bei Text-zu-Bild (T2I) Diffusionsmodellen die Erstellung hochwertiger Bilder aus Textvorgaben ermöglicht, aber sie haben immer noch Schwierigkeiten, Bilder mit präziser Kontrolle über spezifische visuelle Konzepte zu generieren. Bestehende Ansätze können ein gegebenes Konzept replizieren, indem sie von Referenzbildern lernen, jedoch fehlt es ihnen an Flexibilität für die fein abgestufte Anpassung der einzelnen Komponenten innerhalb des Konzepts. In diesem Papier stellen wir die komponentensteuerbare Personalisierung vor, eine neuartige Aufgabe, die die Grenzen von T2I-Modellen erweitert, indem Benutzern ermöglicht wird, spezifische Komponenten neu zu konfigurieren, wenn sie visuelle Konzepte personalisieren. Diese Aufgabe ist besonders herausfordernd aufgrund von zwei Hauptproblemen: semantische Verschmutzung, bei der unerwünschte visuelle Elemente das personalisierte Konzept verunreinigen, und semantische Ungleichgewicht, das zu einer unverhältnismäßigen Lernweise des Konzepts und der Komponente führt. Um diese Herausforderungen zu überwinden, entwerfen wir MagicTailor, ein innovatives Framework, das Dynamische Maskierte Degradation (DM-Deg) nutzt, um unerwünschte visuelle Semantik dynamisch zu stören, und Dual-Stream Balancing (DS-Bal) verwendet, um ein ausgewogenes Lernparadigma für gewünschte visuelle Semantik zu etablieren. Umfangreiche Vergleiche, Ablationen und Analysen zeigen, dass MagicTailor nicht nur in dieser anspruchsvollen Aufgabe herausragt, sondern auch bedeutendes Potenzial für praktische Anwendungen bietet und den Weg für nuanciertere und kreativere Bildgenerierung ebnet.
English
Recent advancements in text-to-image (T2I) diffusion models have enabled the creation of high-quality images from text prompts, but they still struggle to generate images with precise control over specific visual concepts. Existing approaches can replicate a given concept by learning from reference images, yet they lack the flexibility for fine-grained customization of the individual component within the concept. In this paper, we introduce component-controllable personalization, a novel task that pushes the boundaries of T2I models by allowing users to reconfigure specific components when personalizing visual concepts. This task is particularly challenging due to two primary obstacles: semantic pollution, where unwanted visual elements corrupt the personalized concept, and semantic imbalance, which causes disproportionate learning of the concept and component. To overcome these challenges, we design MagicTailor, an innovative framework that leverages Dynamic Masked Degradation (DM-Deg) to dynamically perturb undesired visual semantics and Dual-Stream Balancing (DS-Bal) to establish a balanced learning paradigm for desired visual semantics. Extensive comparisons, ablations, and analyses demonstrate that MagicTailor not only excels in this challenging task but also holds significant promise for practical applications, paving the way for more nuanced and creative image generation.

Summary

AI-Generated Summary

PDF357November 16, 2024