テキストによる画像間拡散モデルのための汎用的な起源識別

Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models

January 4, 2025
著者: Wenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang
cs.AI

要旨

テキストによる画像間拡散モデルは、テキストのプロンプトに基づいて画像を翻訳する際に優れた性能を発揮し、正確かつ創造的な視覚的修正を可能にします。ただし、このような強力な技術は、誤情報の拡散、著作権侵害、コンテンツの追跡回避などに悪用される可能性があります。これにより、私たちは、テキストによる画像間拡散モデル(ID^2)の起源識別タスクを導入する動機付けをします。このタスクの目的は、与えられた翻訳クエリの元の画像を取得することです。ID^2への直接的な解決策は、専用の深層埋め込みモデルを訓練して、クエリと参照画像から特徴を抽出して比較することです。しかし、異なる拡散モデルによって生成された世代間の視覚的な不一致のため、この類似性ベースのアプローチは、あるモデルの画像で訓練し、別のモデルの画像でテストする際に失敗し、現実世界の応用において効果が制限されます。提案されたID^2タスクのこの課題を解決するために、一般性を重視した初のデータセットと理論的に保証された手法を提供します。精選されたデータセットであるOriPIDには、豊富な起源とガイド付きプロンプトが含まれており、さまざまな拡散モデルを横断して潜在的な識別モデルの訓練とテストに使用できます。手法のセクションでは、生成されたサンプルの事前訓練済み変分オートエンコーダー(VAE)埋め込み間の距離を最小化する線形変換の存在を証明します。その後、このような単純な線形変換が異なる拡散モデル間で一般化できることが示されます。実験結果は、提案された手法が類似性ベースの手法よりも満足のいく一般化性能を達成し、一般化設計を持つ手法でも大幅に上回ることを示しています(mAPで+31.6%)。
English
Text-guided image-to-image diffusion models excel in translating images based on textual prompts, allowing for precise and creative visual modifications. However, such a powerful technique can be misused for spreading misinformation, infringing on copyrights, and evading content tracing. This motivates us to introduce the task of origin IDentification for text-guided Image-to-image Diffusion models (ID^2), aiming to retrieve the original image of a given translated query. A straightforward solution to ID^2 involves training a specialized deep embedding model to extract and compare features from both query and reference images. However, due to visual discrepancy across generations produced by different diffusion models, this similarity-based approach fails when training on images from one model and testing on those from another, limiting its effectiveness in real-world applications. To solve this challenge of the proposed ID^2 task, we contribute the first dataset and a theoretically guaranteed method, both emphasizing generalizability. The curated dataset, OriPID, contains abundant Origins and guided Prompts, which can be used to train and test potential IDentification models across various diffusion models. In the method section, we first prove the existence of a linear transformation that minimizes the distance between the pre-trained Variational Autoencoder (VAE) embeddings of generated samples and their origins. Subsequently, it is demonstrated that such a simple linear transformation can be generalized across different diffusion models. Experimental results show that the proposed method achieves satisfying generalization performance, significantly surpassing similarity-based methods (+31.6% mAP), even those with generalization designs.

Summary

AI-Generated Summary

PDF32January 9, 2025