Contrôle des modèles de langage et de diffusion par le transport des activations
Controlling Language and Diffusion Models by Transporting Activations
October 30, 2024
Auteurs: Pau Rodriguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau
cs.AI
Résumé
Les capacités croissantes des grands modèles génératifs et leur déploiement de plus en plus répandu ont soulevé des préoccupations concernant leur fiabilité, leur sécurité et leur potentiel de mauvais usage. Pour répondre à ces problématiques, des travaux récents ont proposé de contrôler la génération de modèle en orientant les activations du modèle afin d'induire ou de prévenir efficacement l'émergence de concepts ou de comportements dans la sortie générée. Dans cet article, nous introduisons Activation Transport (AcT), un cadre général pour orienter les activations guidé par la théorie du transport optimal qui généralise de nombreux travaux antérieurs d'orientation des activations. AcT est agnostique à la modalité et offre un contrôle précis sur le comportement du modèle avec une surcharge computationnelle négligeable, tout en impactant minimalement les capacités du modèle. Nous montrons expérimentalement l'efficacité et la polyvalence de notre approche en relevant des défis clés dans les grands modèles de langage (LLMs) et les modèles de diffusion texte-image (T2Is). Pour les LLMs, nous montrons qu'AcT peut atténuer efficacement la toxicité, induire des concepts arbitraires et augmenter leur véracité. Pour les T2Is, nous montrons comment AcT permet un contrôle de style précis et la négation de concepts.
English
The increasing capabilities of large generative models and their ever more
widespread deployment have raised concerns about their reliability, safety, and
potential misuse. To address these issues, recent works have proposed to
control model generation by steering model activations in order to effectively
induce or prevent the emergence of concepts or behaviors in the generated
output. In this paper we introduce Activation Transport (AcT), a general
framework to steer activations guided by optimal transport theory that
generalizes many previous activation-steering works. AcT is modality-agnostic
and provides fine-grained control over the model behavior with negligible
computational overhead, while minimally impacting model abilities. We
experimentally show the effectiveness and versatility of our approach by
addressing key challenges in large language models (LLMs) and text-to-image
diffusion models (T2Is). For LLMs, we show that AcT can effectively mitigate
toxicity, induce arbitrary concepts, and increase their truthfulness. In T2Is,
we show how AcT enables fine-grained style control and concept negation.Summary
AI-Generated Summary