MagicTailor: Component-Bestuurbare Personalisatie in Tekst-naar-Afbeelding Diffusiemodellen
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models
October 17, 2024
Auteurs: Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng
cs.AI
Samenvatting
Recente ontwikkelingen in tekst-naar-afbeelding (T2I) diffusiemodellen hebben de creatie van hoogwaardige afbeeldingen mogelijk gemaakt op basis van tekstprompts, maar ze hebben nog steeds moeite met het genereren van afbeeldingen met nauwkeurige controle over specifieke visuele concepten. Bestaande benaderingen kunnen een gegeven concept repliceren door te leren van referentieafbeeldingen, maar ze missen de flexibiliteit voor fijnmazige aanpassing van de individuele component binnen het concept. In dit artikel introduceren we component-bestuurbare personalisatie, een nieuw taak die de grenzen van T2I-modellen verlegt door gebruikers in staat te stellen specifieke componenten opnieuw te configureren bij het personaliseren van visuele concepten. Deze taak is bijzonder uitdagend vanwege twee primaire obstakels: semantische vervuiling, waar ongewenste visuele elementen het gepersonaliseerde concept verstoren, en semantische onevenwichtigheid, die leidt tot onevenredig leren van het concept en de component. Om deze uitdagingen te overwinnen, ontwerpen we MagicTailor, een innovatief raamwerk dat gebruikmaakt van Dynamische Gemaskeerde Degradatie (DM-Deg) om ongewenste visuele semantiek dynamisch te verstoren en Dual-Stream Balanceren (DS-Bal) om een gebalanceerd leerpardigma te vestigen voor gewenste visuele semantiek. Uitgebreide vergelijkingen, ablaties en analyses tonen aan dat MagicTailor niet alleen uitblinkt in deze uitdagende taak, maar ook aanzienlijke belofte biedt voor praktische toepassingen, waardoor de weg wordt vrijgemaakt voor meer genuanceerde en creatieve beeldgeneratie.
English
Recent advancements in text-to-image (T2I) diffusion models have enabled the
creation of high-quality images from text prompts, but they still struggle to
generate images with precise control over specific visual concepts. Existing
approaches can replicate a given concept by learning from reference images, yet
they lack the flexibility for fine-grained customization of the individual
component within the concept. In this paper, we introduce
component-controllable personalization, a novel task that pushes the boundaries
of T2I models by allowing users to reconfigure specific components when
personalizing visual concepts. This task is particularly challenging due to two
primary obstacles: semantic pollution, where unwanted visual elements corrupt
the personalized concept, and semantic imbalance, which causes disproportionate
learning of the concept and component. To overcome these challenges, we design
MagicTailor, an innovative framework that leverages Dynamic Masked Degradation
(DM-Deg) to dynamically perturb undesired visual semantics and Dual-Stream
Balancing (DS-Bal) to establish a balanced learning paradigm for desired visual
semantics. Extensive comparisons, ablations, and analyses demonstrate that
MagicTailor not only excels in this challenging task but also holds significant
promise for practical applications, paving the way for more nuanced and
creative image generation.Summary
AI-Generated Summary