Atenção Aninhada: Valores de Atenção Conscientes do Semântico para Personalização de Conceitos

Nested Attention: Semantic-aware Attention Values for Concept Personalization

January 2, 2025
Autores: Or Patashnik, Rinon Gal, Daniil Ostashev, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI

Resumo

Personalizar modelos de texto para imagem para gerar imagens de assuntos específicos em cenas e estilos diversos é um campo em rápido avanço. Abordagens atuais frequentemente enfrentam desafios em manter um equilíbrio entre a preservação da identidade e o alinhamento com o texto de entrada. Alguns métodos dependem de um único token textual para representar um assunto, o que limita a expressividade, enquanto outros utilizam representações mais ricas, porém prejudicam o alinhamento com o texto de entrada. Neste trabalho, introduzimos a Atenção Aninhada, um mecanismo inovador que injeta uma representação de imagem rica e expressiva nas camadas de atenção cruzada existentes do modelo. Nossa ideia principal é gerar valores de assunto dependentes da consulta, derivados de camadas de atenção aninhadas que aprendem a selecionar características relevantes do assunto para cada região na imagem gerada. Integramos essas camadas aninhadas em um método de personalização baseado em codificador e demonstramos que elas possibilitam uma alta preservação da identidade ao mesmo tempo que seguem os textos de entrada. Nossa abordagem é geral e pode ser treinada em diversos domínios. Além disso, sua preservação prévia nos permite combinar múltiplos assuntos personalizados de diferentes domínios em uma única imagem.
English
Personalizing text-to-image models to generate images of specific subjects across diverse scenes and styles is a rapidly advancing field. Current approaches often face challenges in maintaining a balance between identity preservation and alignment with the input text prompt. Some methods rely on a single textual token to represent a subject, which limits expressiveness, while others employ richer representations but disrupt the model's prior, diminishing prompt alignment. In this work, we introduce Nested Attention, a novel mechanism that injects a rich and expressive image representation into the model's existing cross-attention layers. Our key idea is to generate query-dependent subject values, derived from nested attention layers that learn to select relevant subject features for each region in the generated image. We integrate these nested layers into an encoder-based personalization method, and show that they enable high identity preservation while adhering to input text prompts. Our approach is general and can be trained on various domains. Additionally, its prior preservation allows us to combine multiple personalized subjects from different domains in a single image.

Summary

AI-Generated Summary

PDF112January 3, 2025