ChatPaper.aiChatPaper

부정 토큰 병합: 이미지 기반 적대적 특징 안내

Negative Token Merging: Image-based Adversarial Feature Guidance

December 2, 2024
저자: Jaskirat Singh, Lindsey Li, Weijia Shi, Ranjay Krishna, Yejin Choi, Pang Wei Koh, Michael F. Cohen, Stephen Gould, Liang Zheng, Luke Zettlemoyer
cs.AI

초록

부정적 프롬프트를 사용한 텍스트 기반 적대적 가이던스가 원치 않는 개념으로부터 출력 특징을 멀리 밀어내는 데 널리 채택된 방법으로 등장했습니다. 유용하지만, 텍스트만을 사용한 적대적 가이던스 수행은 복잡한 시각적 개념을 포착하고 저작권 보호된 캐릭터와 같은 원치 않는 시각적 요소를 피하는 데 부족할 수 있습니다. 본 논문에서는 처음으로 참조 이미지나 배치 내 다른 이미지로부터 시각적 특징을 직접 사용하여 적대적 가이던스를 수행함으로써 이러한 방향으로 대안적인 모달리티를 탐색합니다. 특히, 우리는 부정 토큰 병합(NegToMe)이라는 간단하면서 효과적인 훈련 없는 접근 방식을 소개합니다. 이 방법은 역확산 과정 중에 참조 및 출력 생성 사이의 일치하는 의미적 특징을 선택적으로 밀어내어 적대적 가이던스를 수행합니다. 동일한 배치 내 다른 이미지에 대해 사용할 때, NegToMe를 사용하면 출력 다양성(인종, 성별, 시각적)이 크게 증가하고 출력 이미지 품질을 희생하지 않습니다. 마찬가지로, 참조된 저작권 자산에 대해 사용할 때, NegToMe는 저작권 컨텐츠와의 시각적 유사성을 34.57% 줄이는 데 도움이 됩니다. NegToMe는 몇 줄의 코드만 사용하여 간단히 구현할 수 있으며, 추론 시간이 약간 높아지고(<4%) Flux와 같은 별도의 부정적 프롬프트 사용을 기본적으로 지원하지 않는 다양한 확산 아키텍처에 일반화됩니다. 코드는 https://negtome.github.io에서 사용할 수 있습니다.
English
Text-based adversarial guidance using a negative prompt has emerged as a widely adopted approach to push the output features away from undesired concepts. While useful, performing adversarial guidance using text alone can be insufficient to capture complex visual concepts and avoid undesired visual elements like copyrighted characters. In this paper, for the first time we explore an alternate modality in this direction by performing adversarial guidance directly using visual features from a reference image or other images in a batch. In particular, we introduce negative token merging (NegToMe), a simple but effective training-free approach which performs adversarial guidance by selectively pushing apart matching semantic features (between reference and output generation) during the reverse diffusion process. When used w.r.t. other images in the same batch, we observe that NegToMe significantly increases output diversity (racial, gender, visual) without sacrificing output image quality. Similarly, when used w.r.t. a reference copyrighted asset, NegToMe helps reduce visual similarity with copyrighted content by 34.57%. NegToMe is simple to implement using just few-lines of code, uses only marginally higher (<4%) inference times and generalizes to different diffusion architectures like Flux, which do not natively support the use of a separate negative prompt. Code is available at https://negtome.github.io

Summary

AI-Generated Summary

PDF236December 6, 2024