MagicTailor : Personnalisation contrôlable par composant dans les modèles de diffusion texte-vers-image

MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

October 17, 2024
Auteurs: Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng
cs.AI

Résumé

Les récents progrès dans les modèles de diffusion texte-image (T2I) ont permis la création d'images de haute qualité à partir de descriptions textuelles, mais ils peinent encore à générer des images avec un contrôle précis sur des concepts visuels spécifiques. Les approches existantes peuvent reproduire un concept donné en apprenant à partir d'images de référence, mais elles manquent de flexibilité pour la personnalisation fine des composants individuels au sein du concept. Dans cet article, nous introduisons la personnalisation contrôlable par composant, une tâche novatrice qui repousse les limites des modèles T2I en permettant aux utilisateurs de reconfigurer des composants spécifiques lors de la personnalisation de concepts visuels. Cette tâche est particulièrement difficile en raison de deux obstacles principaux : la pollution sémantique, où des éléments visuels indésirables corrompent le concept personnalisé, et le déséquilibre sémantique, qui entraîne un apprentissage disproportionné du concept et du composant. Pour surmonter ces défis, nous concevons MagicTailor, un cadre novateur qui exploite la Dégradation Masquée Dynamique (DM-Deg) pour perturber dynamiquement les sémantiques visuelles indésirables et l'Équilibrage à Double Flux (DS-Bal) pour établir un paradigme d'apprentissage équilibré pour les sémantiques visuelles souhaitées. Des comparaisons approfondies, des ablations et des analyses démontrent que MagicTailor excelle non seulement dans cette tâche difficile, mais offre également des perspectives significatives pour des applications pratiques, ouvrant la voie à une génération d'images plus nuancée et créative.
English
Recent advancements in text-to-image (T2I) diffusion models have enabled the creation of high-quality images from text prompts, but they still struggle to generate images with precise control over specific visual concepts. Existing approaches can replicate a given concept by learning from reference images, yet they lack the flexibility for fine-grained customization of the individual component within the concept. In this paper, we introduce component-controllable personalization, a novel task that pushes the boundaries of T2I models by allowing users to reconfigure specific components when personalizing visual concepts. This task is particularly challenging due to two primary obstacles: semantic pollution, where unwanted visual elements corrupt the personalized concept, and semantic imbalance, which causes disproportionate learning of the concept and component. To overcome these challenges, we design MagicTailor, an innovative framework that leverages Dynamic Masked Degradation (DM-Deg) to dynamically perturb undesired visual semantics and Dual-Stream Balancing (DS-Bal) to establish a balanced learning paradigm for desired visual semantics. Extensive comparisons, ablations, and analyses demonstrate that MagicTailor not only excels in this challenging task but also holds significant promise for practical applications, paving the way for more nuanced and creative image generation.

Summary

AI-Generated Summary

PDF357November 16, 2024