Identificazione dell'origine generalizzabile per modelli di diffusione immagine-immagine guidati dal testo
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models
January 4, 2025
Autori: Wenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang
cs.AI
Abstract
I modelli di diffusione immagine-immagine guidati dal testo eccellono nella traduzione di immagini basata su prompt testuali, consentendo modifiche visive precise e creative. Tuttavia, una tecnica così potente può essere abusata per diffondere disinformazione, violare i diritti d'autore e eludere il tracciamento dei contenuti. Questo ci motiva a introdurre il compito di Identificazione dell'Origine per i modelli di diffusione immagine-immagine guidati dal testo (ID^2), mirando a recuperare l'immagine originale di una determinata query tradotta. Una soluzione diretta per ID^2 coinvolge l'addestramento di un modello di embedding profondo specializzato per estrarre e confrontare le caratteristiche sia delle query che delle immagini di riferimento. Tuttavia, a causa delle discrepanze visive tra le generazioni prodotte da diversi modelli di diffusione, questo approccio basato sulla similarità fallisce quando addestrato su immagini da un modello e testato su quelle di un altro, limitandone l'efficacia nelle applicazioni reali. Per risolvere questa sfida del proposto compito ID^2, contribuiamo con il primo dataset e un metodo teoricamente garantito, entrambi enfatizzando la generalizzabilità. Il dataset curato, OriPID, contiene numerose Origini e Prompt guidati, che possono essere utilizzati per addestrare e testare potenziali modelli di Identificazione attraverso vari modelli di diffusione. Nella sezione relativa al metodo, dimostriamo innanzitutto l'esistenza di una trasformazione lineare che minimizza la distanza tra gli embedding pre-addestrati del Variational Autoencoder (VAE) dei campioni generati e le loro origini. Successivamente, viene dimostrato che una tale semplice trasformazione lineare può essere generalizzata tra diversi modelli di diffusione. I risultati sperimentali mostrano che il metodo proposto raggiunge una soddisfacente performance di generalizzazione, superando significativamente i metodi basati sulla similarità (+31,6% mAP), anche quelli con progetti di generalizzazione.
English
Text-guided image-to-image diffusion models excel in translating images based
on textual prompts, allowing for precise and creative visual modifications.
However, such a powerful technique can be misused for spreading misinformation,
infringing on copyrights, and evading content tracing. This motivates us to
introduce the task of origin IDentification for text-guided Image-to-image
Diffusion models (ID^2), aiming to retrieve the original image of a given
translated query. A straightforward solution to ID^2 involves training a
specialized deep embedding model to extract and compare features from both
query and reference images. However, due to visual discrepancy across
generations produced by different diffusion models, this similarity-based
approach fails when training on images from one model and testing on those from
another, limiting its effectiveness in real-world applications. To solve this
challenge of the proposed ID^2 task, we contribute the first dataset and a
theoretically guaranteed method, both emphasizing generalizability. The curated
dataset, OriPID, contains abundant Origins and guided Prompts, which can be
used to train and test potential IDentification models across various diffusion
models. In the method section, we first prove the existence of a linear
transformation that minimizes the distance between the pre-trained Variational
Autoencoder (VAE) embeddings of generated samples and their origins.
Subsequently, it is demonstrated that such a simple linear transformation can
be generalized across different diffusion models. Experimental results show
that the proposed method achieves satisfying generalization performance,
significantly surpassing similarity-based methods (+31.6% mAP), even those
with generalization designs.Summary
AI-Generated Summary