활성화 전달을 통해 언어 및 확산 모델 제어하기
Controlling Language and Diffusion Models by Transporting Activations
October 30, 2024
저자: Pau Rodriguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau
cs.AI
초록
대규모 생성 모델의 능력이 증가하고 그들의 점점 더 널리 사용되는 것은 그들의 신뢰성, 안전성 및 잠재적 남용에 대한 우려를 증가시켰습니다. 이러한 문제에 대응하기 위해 최근 연구들은 모델 활성화를 조절하여 생성된 출력물에서 개념이나 행동의 발생을 효과적으로 유도하거나 방지하기 위해 모델 생성을 제어하는 것을 제안했습니다. 본 논문에서는 최적 운송 이론에 따라 안내되는 활성화를 조절하는 일반적인 프레임워크인 활성화 전달(Activation Transport, AcT)를 소개합니다. AcT는 모달리티에 중립적이며 계산 오버헤드가 미미하면서 모델 행동을 세밀하게 제어하며 모델 능력에는 최소한의 영향을 미칩니다. 우리는 실험적으로 저희 방법의 효과성과 다양성을 입증하여 대규모 언어 모델(Large Language Models, LLMs) 및 텍스트-이미지 확산 모델(Text-to-Image Diffusion Models, T2Is)에서 주요 도전 과제를 다룹니다. LLMs의 경우, AcT가 유해성을 효과적으로 완화하고 임의의 개념을 유도하며 진실성을 증가시킬 수 있다는 것을 보여줍니다. T2Is의 경우, AcT가 세밀한 스타일 제어와 개념 부정을 가능하게 하는 방법을 보여줍니다.
English
The increasing capabilities of large generative models and their ever more
widespread deployment have raised concerns about their reliability, safety, and
potential misuse. To address these issues, recent works have proposed to
control model generation by steering model activations in order to effectively
induce or prevent the emergence of concepts or behaviors in the generated
output. In this paper we introduce Activation Transport (AcT), a general
framework to steer activations guided by optimal transport theory that
generalizes many previous activation-steering works. AcT is modality-agnostic
and provides fine-grained control over the model behavior with negligible
computational overhead, while minimally impacting model abilities. We
experimentally show the effectiveness and versatility of our approach by
addressing key challenges in large language models (LLMs) and text-to-image
diffusion models (T2Is). For LLMs, we show that AcT can effectively mitigate
toxicity, induce arbitrary concepts, and increase their truthfulness. In T2Is,
we show how AcT enables fine-grained style control and concept negation.Summary
AI-Generated Summary