Identificação de Origem Generalizável para Modelos de Difusão de Imagem para Imagem Guiados por Texto
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models
January 4, 2025
Autores: Wenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang
cs.AI
Resumo
Os modelos de difusão de imagem para imagem guiados por texto se destacam na tradução de imagens com base em sugestões textuais, permitindo modificações visuais precisas e criativas. No entanto, essa técnica poderosa pode ser mal utilizada para espalhar desinformação, infringir direitos autorais e evitar rastreamento de conteúdo. Isso nos motiva a introduzir a tarefa de Identificação de Origem para modelos de Difusão de Imagem para Imagem guiados por texto (ID^2), com o objetivo de recuperar a imagem original de uma determinada consulta traduzida. Uma solução direta para o ID^2 envolve treinar um modelo de incorporação profunda especializado para extrair e comparar características tanto das consultas quanto das imagens de referência. No entanto, devido às discrepâncias visuais entre gerações produzidas por diferentes modelos de difusão, essa abordagem baseada em similaridade falha ao treinar em imagens de um modelo e testar em imagens de outro, limitando sua eficácia em aplicações do mundo real. Para resolver esse desafio da proposta tarefa ID^2, contribuímos com o primeiro conjunto de dados e um método teoricamente garantido, ambos enfatizando a generalizabilidade. O conjunto de dados curado, OriPID, contém Origens abundantes e Prompts guiados, que podem ser usados para treinar e testar modelos de Identificação potenciais em vários modelos de difusão. Na seção de método, primeiro provamos a existência de uma transformação linear que minimiza a distância entre as incorporações pré-treinadas do Autoencoder Variacional (VAE) de amostras geradas e suas origens. Posteriormente, é demonstrado que tal transformação linear simples pode ser generalizada entre diferentes modelos de difusão. Resultados experimentais mostram que o método proposto alcança um desempenho de generalização satisfatório, superando significativamente métodos baseados em similaridade (+31,6% mAP), mesmo aqueles com designs de generalização.
English
Text-guided image-to-image diffusion models excel in translating images based
on textual prompts, allowing for precise and creative visual modifications.
However, such a powerful technique can be misused for spreading misinformation,
infringing on copyrights, and evading content tracing. This motivates us to
introduce the task of origin IDentification for text-guided Image-to-image
Diffusion models (ID^2), aiming to retrieve the original image of a given
translated query. A straightforward solution to ID^2 involves training a
specialized deep embedding model to extract and compare features from both
query and reference images. However, due to visual discrepancy across
generations produced by different diffusion models, this similarity-based
approach fails when training on images from one model and testing on those from
another, limiting its effectiveness in real-world applications. To solve this
challenge of the proposed ID^2 task, we contribute the first dataset and a
theoretically guaranteed method, both emphasizing generalizability. The curated
dataset, OriPID, contains abundant Origins and guided Prompts, which can be
used to train and test potential IDentification models across various diffusion
models. In the method section, we first prove the existence of a linear
transformation that minimizes the distance between the pre-trained Variational
Autoencoder (VAE) embeddings of generated samples and their origins.
Subsequently, it is demonstrated that such a simple linear transformation can
be generalized across different diffusion models. Experimental results show
that the proposed method achieves satisfying generalization performance,
significantly surpassing similarity-based methods (+31.6% mAP), even those
with generalization designs.Summary
AI-Generated Summary