매직 테일러: 텍스트에서 이미지로의 구성 요소 제어 가능한 개인화 확산 모델

MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

October 17, 2024
저자: Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng
cs.AI

초록

텍스트-이미지(T2I) 확산 모델의 최근 발전으로 텍스트 프롬프트에서 고품질 이미지를 생성할 수 있게 되었지만, 여전히 특정 시각적 개념에 대한 정확한 제어가 어려운 문제가 남아 있습니다. 기존 방법론은 참조 이미지로부터 학습하여 주어진 개념을 복제할 수 있지만, 그 개념 내 개별 구성 요소의 세밀한 사용자 정의에는 유연성이 부족합니다. 본 논문에서는 구성 요소 제어 가능한 개인화라는 새로운 작업을 소개하여 시각적 개념을 개인화할 때 특정 구성 요소를 재구성할 수 있도록 하는 T2I 모델의 한계를 늘리고자 합니다. 이 작업은 주로 두 가지 주요 장애물 때문에 특히 어려운데, 바로 의미 오염과 의미 불균형입니다. 의미 오염은 원치 않는 시각적 요소가 개인화된 개념을 손상시키는 반면, 의미 불균형은 개념과 구성 요소의 불균형한 학습을 초래합니다. 이러한 도전에 대처하기 위해 MagicTailor라는 혁신적인 프레임워크를 설계했습니다. 이 프레임워크는 원치 않는 시각적 의미를 동적으로 왜곡시키기 위한 Dynamic Masked Degradation(DM-Deg)을 활용하고, 원하는 시각적 의미에 대한 균형 잡힌 학습 패러다임을 수립하기 위한 Dual-Stream Balancing(DS-Bal)을 활용합니다. 방대한 비교, 제거 및 분석을 통해 MagicTailor가 이 어려운 작업에서 우수한 성과를 거두는데 더불어 실용적인 응용 프로그램에 상당한 잠재력을 가지고 있음을 입증하며, 보다 섬세하고 창의적인 이미지 생성을 위한 길을 열어주고 있음을 보여줍니다.
English
Recent advancements in text-to-image (T2I) diffusion models have enabled the creation of high-quality images from text prompts, but they still struggle to generate images with precise control over specific visual concepts. Existing approaches can replicate a given concept by learning from reference images, yet they lack the flexibility for fine-grained customization of the individual component within the concept. In this paper, we introduce component-controllable personalization, a novel task that pushes the boundaries of T2I models by allowing users to reconfigure specific components when personalizing visual concepts. This task is particularly challenging due to two primary obstacles: semantic pollution, where unwanted visual elements corrupt the personalized concept, and semantic imbalance, which causes disproportionate learning of the concept and component. To overcome these challenges, we design MagicTailor, an innovative framework that leverages Dynamic Masked Degradation (DM-Deg) to dynamically perturb undesired visual semantics and Dual-Stream Balancing (DS-Bal) to establish a balanced learning paradigm for desired visual semantics. Extensive comparisons, ablations, and analyses demonstrate that MagicTailor not only excels in this challenging task but also holds significant promise for practical applications, paving the way for more nuanced and creative image generation.

Summary

AI-Generated Summary

PDF357November 16, 2024