MagicTailor : Personnalisation contrôlable par composant dans les modèles de diffusion texte-vers-image
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models
October 17, 2024
Auteurs: Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng
cs.AI
Résumé
Les récents progrès dans les modèles de diffusion texte-image (T2I) ont permis la création d'images de haute qualité à partir de descriptions textuelles, mais ils peinent encore à générer des images avec un contrôle précis sur des concepts visuels spécifiques. Les approches existantes peuvent reproduire un concept donné en apprenant à partir d'images de référence, mais elles manquent de flexibilité pour la personnalisation fine des composants individuels au sein du concept. Dans cet article, nous introduisons la personnalisation contrôlable par composant, une tâche novatrice qui repousse les limites des modèles T2I en permettant aux utilisateurs de reconfigurer des composants spécifiques lors de la personnalisation de concepts visuels. Cette tâche est particulièrement difficile en raison de deux obstacles principaux : la pollution sémantique, où des éléments visuels indésirables corrompent le concept personnalisé, et le déséquilibre sémantique, qui entraîne un apprentissage disproportionné du concept et du composant. Pour surmonter ces défis, nous concevons MagicTailor, un cadre novateur qui exploite la Dégradation Masquée Dynamique (DM-Deg) pour perturber dynamiquement les sémantiques visuelles indésirables et l'Équilibrage à Double Flux (DS-Bal) pour établir un paradigme d'apprentissage équilibré pour les sémantiques visuelles souhaitées. Des comparaisons approfondies, des ablations et des analyses démontrent que MagicTailor excelle non seulement dans cette tâche difficile, mais offre également des perspectives significatives pour des applications pratiques, ouvrant la voie à une génération d'images plus nuancée et créative.
English
Recent advancements in text-to-image (T2I) diffusion models have enabled the
creation of high-quality images from text prompts, but they still struggle to
generate images with precise control over specific visual concepts. Existing
approaches can replicate a given concept by learning from reference images, yet
they lack the flexibility for fine-grained customization of the individual
component within the concept. In this paper, we introduce
component-controllable personalization, a novel task that pushes the boundaries
of T2I models by allowing users to reconfigure specific components when
personalizing visual concepts. This task is particularly challenging due to two
primary obstacles: semantic pollution, where unwanted visual elements corrupt
the personalized concept, and semantic imbalance, which causes disproportionate
learning of the concept and component. To overcome these challenges, we design
MagicTailor, an innovative framework that leverages Dynamic Masked Degradation
(DM-Deg) to dynamically perturb undesired visual semantics and Dual-Stream
Balancing (DS-Bal) to establish a balanced learning paradigm for desired visual
semantics. Extensive comparisons, ablations, and analyses demonstrate that
MagicTailor not only excels in this challenging task but also holds significant
promise for practical applications, paving the way for more nuanced and
creative image generation.Summary
AI-Generated Summary