ChatPaper.aiChatPaper

개념 스티어러: 조절 가능한 생성을 위한 K-희소 오토인코더 활용

Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations

January 31, 2025
저자: Dahye Kim, Deepti Ghadiyaram
cs.AI

초록

텍스트-이미지 생성 모델의 현저한 발전에도 불구하고, 이러한 모델은 적대적 공격에 취약하며 안전하지 않거나 윤리적으로 문제가 있는 콘텐츠를 생성할 수 있다. 기존 방법들은 종종 특정 개념을 제거하기 위해 모델을 세밀하게 조정하는 데 의존하는데, 이는 계산 비용이 많이 들거나 확장성이 부족하며 생성 품질을 희생할 수 있다. 본 연구에서는 확산 모델에서 효율적이고 해석 가능한 개념 조작을 가능하게 하는 k-희소 오토인코더(k-SAEs)를 활용하는 새로운 프레임워크를 제안한다. 구체적으로, 우리는 먼저 텍스트 임베딩의 잠재 공간에서 해석 가능한 단의미 개념을 식별하고, 이를 활용하여 생성을 특정 개념(예: 노출)으로부터 멀어지게 하거나 가까워지게 하거나 새로운 개념(예: 사진 스타일)을 도입한다. 광범위한 실험을 통해 우리의 방법이 매우 간단하며, 기본 모델이나 LoRA 어댑터의 재교육이 필요하지 않으며, 생성 품질을 희생시키지 않으며, 적대적 프롬프트 조작에 강건하다는 것을 입증한다. 우리의 방법은 안전하지 않은 개념 제거에서 20.01%의 개선을 보이며, 스타일 조작에서 효과적이며, 현재의 최첨단 기술보다 5배 빠르다.
English
Despite the remarkable progress in text-to-image generative models, they are prone to adversarial attacks and inadvertently generate unsafe, unethical content. Existing approaches often rely on fine-tuning models to remove specific concepts, which is computationally expensive, lack scalability, and/or compromise generation quality. In this work, we propose a novel framework leveraging k-sparse autoencoders (k-SAEs) to enable efficient and interpretable concept manipulation in diffusion models. Specifically, we first identify interpretable monosemantic concepts in the latent space of text embeddings and leverage them to precisely steer the generation away or towards a given concept (e.g., nudity) or to introduce a new concept (e.g., photographic style). Through extensive experiments, we demonstrate that our approach is very simple, requires no retraining of the base model nor LoRA adapters, does not compromise the generation quality, and is robust to adversarial prompt manipulations. Our method yields an improvement of 20.01% in unsafe concept removal, is effective in style manipulation, and is sim5x faster than current state-of-the-art.

Summary

AI-Generated Summary

PDF112February 5, 2025