Steuerung von Sprach- und Diffusionsmodellen durch Aktivitätstransport
Controlling Language and Diffusion Models by Transporting Activations
October 30, 2024
Autoren: Pau Rodriguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau
cs.AI
Zusammenfassung
Die zunehmenden Fähigkeiten großer generativer Modelle und ihre immer weiter verbreitete Anwendung haben Bedenken hinsichtlich ihrer Zuverlässigkeit, Sicherheit und potenziellen Missbrauchs aufgeworfen. Um diese Probleme anzugehen, wurden in jüngsten Arbeiten Vorschläge gemacht, die Modellgenerierung zu steuern, indem Modellaktivierungen gelenkt werden, um effektiv das Entstehen oder Verhindern von Konzepten oder Verhaltensweisen in der generierten Ausgabe zu bewirken. In diesem Artikel stellen wir Activation Transport (AcT) vor, ein allgemeines Rahmenwerk zur Steuerung von Aktivierungen, das von der optimalen Transporttheorie geleitet wird und viele frühere Aktivierungssteuerungsarbeiten verallgemeinert. AcT ist modalitätsunabhängig und ermöglicht eine fein abgestimmte Steuerung des Modellverhaltens mit vernachlässigbarem Rechenaufwand, wobei die Modellfähigkeiten minimal beeinträchtigt werden. Wir zeigen experimentell die Wirksamkeit und Vielseitigkeit unseres Ansatzes, indem wir zentrale Herausforderungen bei großen Sprachmodellen (LLMs) und Text-zu-Bild-Diffusionsmodellen (T2Is) angehen. Bei LLMs zeigen wir, dass AcT Toxizität effektiv mildern, beliebige Konzepte induzieren und ihre Wahrhaftigkeit erhöhen kann. Bei T2Is zeigen wir, wie AcT eine fein abgestimmte Stilsteuerung und Konzeptnegation ermöglicht.
English
The increasing capabilities of large generative models and their ever more
widespread deployment have raised concerns about their reliability, safety, and
potential misuse. To address these issues, recent works have proposed to
control model generation by steering model activations in order to effectively
induce or prevent the emergence of concepts or behaviors in the generated
output. In this paper we introduce Activation Transport (AcT), a general
framework to steer activations guided by optimal transport theory that
generalizes many previous activation-steering works. AcT is modality-agnostic
and provides fine-grained control over the model behavior with negligible
computational overhead, while minimally impacting model abilities. We
experimentally show the effectiveness and versatility of our approach by
addressing key challenges in large language models (LLMs) and text-to-image
diffusion models (T2Is). For LLMs, we show that AcT can effectively mitigate
toxicity, induce arbitrary concepts, and increase their truthfulness. In T2Is,
we show how AcT enables fine-grained style control and concept negation.Summary
AI-Generated Summary