Fusione Negativa dei Token: Guida delle Caratteristiche Avversarie Basata sull'Immagine

Negative Token Merging: Image-based Adversarial Feature Guidance

December 2, 2024
Autori: Jaskirat Singh, Lindsey Li, Weijia Shi, Ranjay Krishna, Yejin Choi, Pang Wei Koh, Michael F. Cohen, Stephen Gould, Liang Zheng, Luke Zettlemoyer
cs.AI

Abstract

L'orientamento avversario basato su testo utilizzando un prompt negativo è emerso come un approccio ampiamente adottato per spingere le caratteristiche dell'output lontano dai concetti indesiderati. Sebbene utile, eseguire un orientamento avversario utilizzando solo il testo può essere insufficiente per catturare concetti visivi complessi e evitare elementi visivi indesiderati come personaggi protetti da copyright. In questo articolo, esploriamo per la prima volta un'alternativa in questa direzione eseguendo un orientamento avversario direttamente utilizzando le caratteristiche visive di un'immagine di riferimento o di altre immagini in un batch. In particolare, presentiamo il merging di token negativi (NegToMe), un approccio semplice ma efficace che esegue un orientamento avversario spingendo selettivamente lontano le caratteristiche semantiche corrispondenti (tra riferimento e generazione dell'output) durante il processo di diffusione inversa. Quando utilizzato rispetto ad altre immagini nello stesso batch, osserviamo che NegToMe aumenta significativamente la diversità dell'output (razza, genere, visiva) senza sacrificare la qualità dell'immagine di output. Allo stesso modo, quando utilizzato rispetto a un asset protetto da copyright di riferimento, NegToMe aiuta a ridurre la similarità visiva con i contenuti protetti da copyright del 34,57%. NegToMe è semplice da implementare utilizzando solo poche righe di codice, utilizza solo tempi di inferenza marginalmente più alti (<4%) e si generalizza a diverse architetture di diffusione come Flux, che non supportano nativamente l'uso di un prompt negativo separato. Il codice è disponibile su https://negtome.github.io
English
Text-based adversarial guidance using a negative prompt has emerged as a widely adopted approach to push the output features away from undesired concepts. While useful, performing adversarial guidance using text alone can be insufficient to capture complex visual concepts and avoid undesired visual elements like copyrighted characters. In this paper, for the first time we explore an alternate modality in this direction by performing adversarial guidance directly using visual features from a reference image or other images in a batch. In particular, we introduce negative token merging (NegToMe), a simple but effective training-free approach which performs adversarial guidance by selectively pushing apart matching semantic features (between reference and output generation) during the reverse diffusion process. When used w.r.t. other images in the same batch, we observe that NegToMe significantly increases output diversity (racial, gender, visual) without sacrificing output image quality. Similarly, when used w.r.t. a reference copyrighted asset, NegToMe helps reduce visual similarity with copyrighted content by 34.57%. NegToMe is simple to implement using just few-lines of code, uses only marginally higher (<4%) inference times and generalizes to different diffusion architectures like Flux, which do not natively support the use of a separate negative prompt. Code is available at https://negtome.github.io

Summary

AI-Generated Summary

PDF226December 6, 2024