Het regelen van Taal- en Verspreidingsmodellen door Activaties te Transporteren

Controlling Language and Diffusion Models by Transporting Activations

October 30, 2024
Auteurs: Pau Rodriguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau
cs.AI

Samenvatting

De toenemende mogelijkheden van grote generatieve modellen en hun steeds wijdverspreide inzet hebben zorgen doen rijzen over hun betrouwbaarheid, veiligheid en potentieel misbruik. Om deze kwesties aan te pakken, hebben recente werken voorgesteld om de modelgeneratie te controleren door modelactivaties te sturen om effectief het ontstaan of voorkomen van concepten of gedragingen in de gegenereerde output te induceren. In dit artikel introduceren we Activation Transport (AcT), een algemeen kader om activaties te sturen, geleid door optimale transporttheorie, dat veel eerdere activatiesturingswerken generaliseert. AcT is modaal-agnostisch en biedt fijnmazige controle over het modelgedrag met verwaarloosbare rekenkundige overhead, terwijl het de modelcapaciteiten minimaal beïnvloedt. We tonen experimenteel de effectiviteit en veelzijdigheid van onze benadering door belangrijke uitdagingen aan te pakken in grote taalmodellen (LLMs) en tekst-naar-afbeelding diffusiemodellen (T2Is). Voor LLMs laten we zien dat AcT toxiciteit effectief kan verminderen, willekeurige concepten kan induceren en hun waarachtigheid kan verhogen. Bij T2Is laten we zien hoe AcT fijnmazige stijlcontrole en conceptontkenning mogelijk maakt.
English
The increasing capabilities of large generative models and their ever more widespread deployment have raised concerns about their reliability, safety, and potential misuse. To address these issues, recent works have proposed to control model generation by steering model activations in order to effectively induce or prevent the emergence of concepts or behaviors in the generated output. In this paper we introduce Activation Transport (AcT), a general framework to steer activations guided by optimal transport theory that generalizes many previous activation-steering works. AcT is modality-agnostic and provides fine-grained control over the model behavior with negligible computational overhead, while minimally impacting model abilities. We experimentally show the effectiveness and versatility of our approach by addressing key challenges in large language models (LLMs) and text-to-image diffusion models (T2Is). For LLMs, we show that AcT can effectively mitigate toxicity, induce arbitrary concepts, and increase their truthfulness. In T2Is, we show how AcT enables fine-grained style control and concept negation.

Summary

AI-Generated Summary

PDF162November 13, 2024