Steuerung von Sprach- und Diffusionsmodellen durch Aktivitätstransport

Zusammenfassung

Die zunehmenden Fähigkeiten großer generativer Modelle und ihre immer weiter verbreitete Anwendung haben Bedenken hinsichtlich ihrer Zuverlässigkeit, Sicherheit und potenziellen Missbrauchs aufgeworfen. Um diese Probleme anzugehen, wurden in jüngsten Arbeiten Vorschläge gemacht, die Modellgenerierung zu steuern, indem Modellaktivierungen gelenkt werden, um effektiv das Entstehen oder Verhindern von Konzepten oder Verhaltensweisen in der generierten Ausgabe zu bewirken. In diesem Artikel stellen wir Activation Transport (AcT) vor, ein allgemeines Rahmenwerk zur Steuerung von Aktivierungen, das von der optimalen Transporttheorie geleitet wird und viele frühere Aktivierungssteuerungsarbeiten verallgemeinert. AcT ist modalitätsunabhängig und ermöglicht eine fein abgestimmte Steuerung des Modellverhaltens mit vernachlässigbarem Rechenaufwand, wobei die Modellfähigkeiten minimal beeinträchtigt werden. Wir zeigen experimentell die Wirksamkeit und Vielseitigkeit unseres Ansatzes, indem wir zentrale Herausforderungen bei großen Sprachmodellen (LLMs) und Text-zu-Bild-Diffusionsmodellen (T2Is) angehen. Bei LLMs zeigen wir, dass AcT Toxizität effektiv mildern, beliebige Konzepte induzieren und ihre Wahrhaftigkeit erhöhen kann. Bei T2Is zeigen wir, wie AcT eine fein abgestimmte Stilsteuerung und Konzeptnegation ermöglicht.

English

The increasing capabilities of large generative models and their ever more widespread deployment have raised concerns about their reliability, safety, and potential misuse. To address these issues, recent works have proposed to control model generation by steering model activations in order to effectively induce or prevent the emergence of concepts or behaviors in the generated output. In this paper we introduce Activation Transport (AcT), a general framework to steer activations guided by optimal transport theory that generalizes many previous activation-steering works. AcT is modality-agnostic and provides fine-grained control over the model behavior with negligible computational overhead, while minimally impacting model abilities. We experimentally show the effectiveness and versatility of our approach by addressing key challenges in large language models (LLMs) and text-to-image diffusion models (T2Is). For LLMs, we show that AcT can effectively mitigate toxicity, induce arbitrary concepts, and increase their truthfulness. In T2Is, we show how AcT enables fine-grained style control and concept negation.

Steuerung von Sprach- und Diffusionsmodellen durch Aktivitätstransport

Controlling Language and Diffusion Models by Transporting Activations

Zusammenfassung

Support