텍스트로 안내되는 이미지 대 이미지 확산 모델을 위한 일반화 가능한 원천 식별
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models
January 4, 2025
저자: Wenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang
cs.AI
초록
텍스트 안내 이미지 대 이미지 확산 모델은 텍스트 프롬프트를 기반으로 이미지를 번역하는 데 뛰어나며, 정확하고 창의적인 시각적 수정을 가능하게 합니다. 그러나 이러한 강력한 기술은 잘못 사용될 수 있어 잘못된 정보 전파, 저작권 침해, 그리고 콘텐츠 추적 회피에 이용될 수 있습니다. 이로 인해 우리는 주어진 번역된 쿼리의 원본 이미지를 검색하는 것을 목표로 하는 텍스트 안내 이미지 대 이미지 확산 모델 (ID^2)의 과제를 소개합니다. ID^2에 대한 직접적인 해결책은 쿼리와 참조 이미지에서 특징을 추출하고 비교하기 위해 전문화된 심층 임베딩 모델을 훈련시키는 것을 포함합니다. 그러나 서로 다른 확산 모델에서 생성된 세대 간의 시각적 불일치로 인해 이 유사성 기반 접근 방식은 한 모델의 이미지로 훈련하고 다른 모델의 이미지로 테스트할 때 실패하여 실제 응용 프로그램에서의 효과를 제한합니다. 제안된 ID^2 작업의 이러한 도전을 해결하기 위해 우리는 일반화를 강조하는 첫 번째 데이터셋과 이론적으로 보장된 방법을 제공합니다. 선별된 데이터셋인 OriPID에는 풍부한 원본과 안내 프롬프트가 포함되어 있으며, 다양한 확산 모델을 통해 잠재적인 IDentification 모델을 훈련하고 테스트하는 데 사용할 수 있습니다. 방법 섹션에서는 먼저 생성된 샘플의 사전 훈련된 변이형 오토인코더 (VAE) 임베딩 간의 거리를 최소화하는 선형 변환의 존재를 증명합니다. 이후, 이러한 간단한 선형 변환을 서로 다른 확산 모델에 걸쳐 일반화할 수 있다는 것을 입증합니다. 실험 결과는 제안된 방법이 유사성 기반 방법보다 (+31.6% mAP) 훨씬 뛰어난 일반화 성능을 달성한다는 것을 보여줍니다. 일반화 설계를 갖춘 방법조차도 능가합니다.
English
Text-guided image-to-image diffusion models excel in translating images based
on textual prompts, allowing for precise and creative visual modifications.
However, such a powerful technique can be misused for spreading misinformation,
infringing on copyrights, and evading content tracing. This motivates us to
introduce the task of origin IDentification for text-guided Image-to-image
Diffusion models (ID^2), aiming to retrieve the original image of a given
translated query. A straightforward solution to ID^2 involves training a
specialized deep embedding model to extract and compare features from both
query and reference images. However, due to visual discrepancy across
generations produced by different diffusion models, this similarity-based
approach fails when training on images from one model and testing on those from
another, limiting its effectiveness in real-world applications. To solve this
challenge of the proposed ID^2 task, we contribute the first dataset and a
theoretically guaranteed method, both emphasizing generalizability. The curated
dataset, OriPID, contains abundant Origins and guided Prompts, which can be
used to train and test potential IDentification models across various diffusion
models. In the method section, we first prove the existence of a linear
transformation that minimizes the distance between the pre-trained Variational
Autoencoder (VAE) embeddings of generated samples and their origins.
Subsequently, it is demonstrated that such a simple linear transformation can
be generalized across different diffusion models. Experimental results show
that the proposed method achieves satisfying generalization performance,
significantly surpassing similarity-based methods (+31.6% mAP), even those
with generalization designs.Summary
AI-Generated Summary