Het regelen van Taal- en Verspreidingsmodellen door Activaties te Transporteren
Controlling Language and Diffusion Models by Transporting Activations
October 30, 2024
Auteurs: Pau Rodriguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau
cs.AI
Samenvatting
De toenemende mogelijkheden van grote generatieve modellen en hun steeds wijdverspreide inzet hebben zorgen doen rijzen over hun betrouwbaarheid, veiligheid en potentieel misbruik. Om deze kwesties aan te pakken, hebben recente werken voorgesteld om de modelgeneratie te controleren door modelactivaties te sturen om effectief het ontstaan of voorkomen van concepten of gedragingen in de gegenereerde output te induceren. In dit artikel introduceren we Activation Transport (AcT), een algemeen kader om activaties te sturen, geleid door optimale transporttheorie, dat veel eerdere activatiesturingswerken generaliseert. AcT is modaal-agnostisch en biedt fijnmazige controle over het modelgedrag met verwaarloosbare rekenkundige overhead, terwijl het de modelcapaciteiten minimaal beïnvloedt. We tonen experimenteel de effectiviteit en veelzijdigheid van onze benadering door belangrijke uitdagingen aan te pakken in grote taalmodellen (LLMs) en tekst-naar-afbeelding diffusiemodellen (T2Is). Voor LLMs laten we zien dat AcT toxiciteit effectief kan verminderen, willekeurige concepten kan induceren en hun waarachtigheid kan verhogen. Bij T2Is laten we zien hoe AcT fijnmazige stijlcontrole en conceptontkenning mogelijk maakt.
English
The increasing capabilities of large generative models and their ever more
widespread deployment have raised concerns about their reliability, safety, and
potential misuse. To address these issues, recent works have proposed to
control model generation by steering model activations in order to effectively
induce or prevent the emergence of concepts or behaviors in the generated
output. In this paper we introduce Activation Transport (AcT), a general
framework to steer activations guided by optimal transport theory that
generalizes many previous activation-steering works. AcT is modality-agnostic
and provides fine-grained control over the model behavior with negligible
computational overhead, while minimally impacting model abilities. We
experimentally show the effectiveness and versatility of our approach by
addressing key challenges in large language models (LLMs) and text-to-image
diffusion models (T2Is). For LLMs, we show that AcT can effectively mitigate
toxicity, induce arbitrary concepts, and increase their truthfulness. In T2Is,
we show how AcT enables fine-grained style control and concept negation.Summary
AI-Generated Summary