중첩된 주의: 개념 개인화를 위한 의미 인식 주의 값
Nested Attention: Semantic-aware Attention Values for Concept Personalization
January 2, 2025
저자: Or Patashnik, Rinon Gal, Daniil Ostashev, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI
초록
특정 주제의 이미지를 생성하기 위해 텍스트-이미지 모델을 개인화하는 것은 다양한 장면과 스타일에서 빠르게 발전하는 분야입니다. 현재의 접근 방식은 종종 신원 보존과 입력 텍스트 프롬프트와의 균형을 유지하는 데 어려움을 겪습니다. 일부 방법은 주제를 나타내는 단일 텍스트 토큰에 의존하여 표현력을 제한하는 반면, 다른 방법은 더 풍부한 표현을 사용하지만 모델의 이전을 방해하고 프롬프트 정렬을 감소시킵니다. 본 연구에서는 새로운 메커니즘인 Nested Attention을 소개합니다. 이 메커니즘은 풍부하고 표현력 있는 이미지 표현을 모델의 기존 교차-주의 계층에 주입하는 것입니다. 우리의 주요 아이디어는 생성된 이미지의 각 영역에 대해 관련 주제 특징을 선택하는 학습된 중첩 주의 계층에서 파생된 쿼리 종속 주제 값들을 생성하는 것입니다. 이 중첩된 계층을 인코더 기반의 개인화 방법에 통합하고, 이들이 입력 텍스트 프롬프트를 준수하면서 높은 신원 보존을 가능하게 한다는 것을 보여줍니다. 우리의 방법은 일반적이며 다양한 도메인에서 훈련될 수 있습니다. 게다가, 이전의 보존은 서로 다른 도메인의 여러 개인화된 주제를 단일 이미지에 결합할 수 있도록 합니다.
English
Personalizing text-to-image models to generate images of specific subjects
across diverse scenes and styles is a rapidly advancing field. Current
approaches often face challenges in maintaining a balance between identity
preservation and alignment with the input text prompt. Some methods rely on a
single textual token to represent a subject, which limits expressiveness, while
others employ richer representations but disrupt the model's prior, diminishing
prompt alignment. In this work, we introduce Nested Attention, a novel
mechanism that injects a rich and expressive image representation into the
model's existing cross-attention layers. Our key idea is to generate
query-dependent subject values, derived from nested attention layers that learn
to select relevant subject features for each region in the generated image. We
integrate these nested layers into an encoder-based personalization method, and
show that they enable high identity preservation while adhering to input text
prompts. Our approach is general and can be trained on various domains.
Additionally, its prior preservation allows us to combine multiple personalized
subjects from different domains in a single image.Summary
AI-Generated Summary