Attenzione nidificata: Valori di attenzione consapevoli del significato per la personalizzazione dei concetti.
Nested Attention: Semantic-aware Attention Values for Concept Personalization
January 2, 2025
Autori: Or Patashnik, Rinon Gal, Daniil Ostashev, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI
Abstract
La personalizzazione dei modelli di testo-immagine per generare immagini di soggetti specifici in scenari e stili diversi è un campo in rapida evoluzione. Gli approcci attuali spesso affrontano sfide nel mantenere un equilibrio tra la conservazione dell'identità e l'allineamento con il prompt di testo in input. Alcuni metodi si basano su un singolo token testuale per rappresentare un soggetto, il che limita l'espressività, mentre altri utilizzano rappresentazioni più ricche ma compromettono il precedente del modello, riducendo l'allineamento con il prompt. In questo lavoro, presentiamo Nested Attention, un meccanismo innovativo che inserisce una rappresentazione dell'immagine ricca ed espressiva nei livelli di cross-attenzione esistenti del modello. La nostra idea chiave è generare valori soggetto dipendenti dalla query, derivati da livelli di attenzione nidificati che imparano a selezionare caratteristiche soggetto rilevanti per ciascuna regione nell'immagine generata. Integriamo questi livelli nidificati in un metodo di personalizzazione basato su un codificatore e dimostriamo che consentono una elevata conservazione dell'identità rispettando i prompt di testo in input. Il nostro approccio è generale e può essere addestrato su vari domini. Inoltre, la sua conservazione precedente ci permette di combinare più soggetti personalizzati da diversi domini in un'unica immagine.
English
Personalizing text-to-image models to generate images of specific subjects
across diverse scenes and styles is a rapidly advancing field. Current
approaches often face challenges in maintaining a balance between identity
preservation and alignment with the input text prompt. Some methods rely on a
single textual token to represent a subject, which limits expressiveness, while
others employ richer representations but disrupt the model's prior, diminishing
prompt alignment. In this work, we introduce Nested Attention, a novel
mechanism that injects a rich and expressive image representation into the
model's existing cross-attention layers. Our key idea is to generate
query-dependent subject values, derived from nested attention layers that learn
to select relevant subject features for each region in the generated image. We
integrate these nested layers into an encoder-based personalization method, and
show that they enable high identity preservation while adhering to input text
prompts. Our approach is general and can be trained on various domains.
Additionally, its prior preservation allows us to combine multiple personalized
subjects from different domains in a single image.Summary
AI-Generated Summary