ネストされた注意:概念の個別化のための意味論に基づいた注意値
Nested Attention: Semantic-aware Attention Values for Concept Personalization
January 2, 2025
著者: Or Patashnik, Rinon Gal, Daniil Ostashev, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI
要旨
特定の被写体の画像を生成するためにテキストから画像モデルを個人化することは、多様なシーンやスタイルにわたって急速に進化している分野です。現在の手法は、しばしばアイデンティティの保存と入力テキストプロンプトとの整合性のバランスを保つことに課題を抱えています。一部の手法は、被写体を表すために単一のテキストトークンに依存しており、表現力が制限されますが、他の手法はより豊かな表現を用いていますが、モデルの事前情報を乱し、プロンプトの整合性を低下させます。本研究では、新しいメカニズムであるNested Attentionを導入し、モデルの既存のクロスアテンション層に豊かで表現力豊かな画像表現を注入します。主要なアイデアは、生成された画像の各領域に対して関連する被写体の特徴を選択することを学習するネストされたアテンション層から派生した、クエリ依存の被写体値を生成することです。これらのネストされた層をエンコーダベースの個人化手法に統合し、高いアイデンティティの保存を可能にしつつ、入力テキストプロンプトに忠実であることを示します。この手法は一般的であり、さまざまなドメインで訓練できます。さらに、その事前情報の保存により、異なるドメインからの複数の個人化された被写体を単一の画像に組み合わせることができます。
English
Personalizing text-to-image models to generate images of specific subjects
across diverse scenes and styles is a rapidly advancing field. Current
approaches often face challenges in maintaining a balance between identity
preservation and alignment with the input text prompt. Some methods rely on a
single textual token to represent a subject, which limits expressiveness, while
others employ richer representations but disrupt the model's prior, diminishing
prompt alignment. In this work, we introduce Nested Attention, a novel
mechanism that injects a rich and expressive image representation into the
model's existing cross-attention layers. Our key idea is to generate
query-dependent subject values, derived from nested attention layers that learn
to select relevant subject features for each region in the generated image. We
integrate these nested layers into an encoder-based personalization method, and
show that they enable high identity preservation while adhering to input text
prompts. Our approach is general and can be trained on various domains.
Additionally, its prior preservation allows us to combine multiple personalized
subjects from different domains in a single image.Summary
AI-Generated Summary