Identificazione dell'origine generalizzabile per modelli di diffusione immagine-immagine guidati dal testo

Abstract

I modelli di diffusione immagine-immagine guidati dal testo eccellono nella traduzione di immagini basata su prompt testuali, consentendo modifiche visive precise e creative. Tuttavia, una tecnica così potente può essere abusata per diffondere disinformazione, violare i diritti d'autore e eludere il tracciamento dei contenuti. Questo ci motiva a introdurre il compito di Identificazione dell'Origine per i modelli di diffusione immagine-immagine guidati dal testo (ID^2), mirando a recuperare l'immagine originale di una determinata query tradotta. Una soluzione diretta per ID^2 coinvolge l'addestramento di un modello di embedding profondo specializzato per estrarre e confrontare le caratteristiche sia delle query che delle immagini di riferimento. Tuttavia, a causa delle discrepanze visive tra le generazioni prodotte da diversi modelli di diffusione, questo approccio basato sulla similarità fallisce quando addestrato su immagini da un modello e testato su quelle di un altro, limitandone l'efficacia nelle applicazioni reali. Per risolvere questa sfida del proposto compito ID^2, contribuiamo con il primo dataset e un metodo teoricamente garantito, entrambi enfatizzando la generalizzabilità. Il dataset curato, OriPID, contiene numerose Origini e Prompt guidati, che possono essere utilizzati per addestrare e testare potenziali modelli di Identificazione attraverso vari modelli di diffusione. Nella sezione relativa al metodo, dimostriamo innanzitutto l'esistenza di una trasformazione lineare che minimizza la distanza tra gli embedding pre-addestrati del Variational Autoencoder (VAE) dei campioni generati e le loro origini. Successivamente, viene dimostrato che una tale semplice trasformazione lineare può essere generalizzata tra diversi modelli di diffusione. I risultati sperimentali mostrano che il metodo proposto raggiunge una soddisfacente performance di generalizzazione, superando significativamente i metodi basati sulla similarità (+31,6% mAP), anche quelli con progetti di generalizzazione.

English

Text-guided image-to-image diffusion models excel in translating images based on textual prompts, allowing for precise and creative visual modifications. However, such a powerful technique can be misused for spreading misinformation, infringing on copyrights, and evading content tracing. This motivates us to introduce the task of origin IDentification for text-guided Image-to-image Diffusion models (ID^2), aiming to retrieve the original image of a given translated query. A straightforward solution to ID^2 involves training a specialized deep embedding model to extract and compare features from both query and reference images. However, due to visual discrepancy across generations produced by different diffusion models, this similarity-based approach fails when training on images from one model and testing on those from another, limiting its effectiveness in real-world applications. To solve this challenge of the proposed ID^2 task, we contribute the first dataset and a theoretically guaranteed method, both emphasizing generalizability. The curated dataset, OriPID, contains abundant Origins and guided Prompts, which can be used to train and test potential IDentification models across various diffusion models. In the method section, we first prove the existence of a linear transformation that minimizes the distance between the pre-trained Variational Autoencoder (VAE) embeddings of generated samples and their origins. Subsequently, it is demonstrated that such a simple linear transformation can be generalized across different diffusion models. Experimental results show that the proposed method achieves satisfying generalization performance, significantly surpassing similarity-based methods (+31.6% mAP), even those with generalization designs.

Identificazione dell'origine generalizzabile per modelli di diffusione immagine-immagine guidati dal testo

Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models

Abstract

Support