Contrôle des modèles de langage et de diffusion par le transport des activations

Résumé

Les capacités croissantes des grands modèles génératifs et leur déploiement de plus en plus répandu ont soulevé des préoccupations concernant leur fiabilité, leur sécurité et leur potentiel de mauvais usage. Pour répondre à ces problématiques, des travaux récents ont proposé de contrôler la génération de modèle en orientant les activations du modèle afin d'induire ou de prévenir efficacement l'émergence de concepts ou de comportements dans la sortie générée. Dans cet article, nous introduisons Activation Transport (AcT), un cadre général pour orienter les activations guidé par la théorie du transport optimal qui généralise de nombreux travaux antérieurs d'orientation des activations. AcT est agnostique à la modalité et offre un contrôle précis sur le comportement du modèle avec une surcharge computationnelle négligeable, tout en impactant minimalement les capacités du modèle. Nous montrons expérimentalement l'efficacité et la polyvalence de notre approche en relevant des défis clés dans les grands modèles de langage (LLMs) et les modèles de diffusion texte-image (T2Is). Pour les LLMs, nous montrons qu'AcT peut atténuer efficacement la toxicité, induire des concepts arbitraires et augmenter leur véracité. Pour les T2Is, nous montrons comment AcT permet un contrôle de style précis et la négation de concepts.

English

The increasing capabilities of large generative models and their ever more widespread deployment have raised concerns about their reliability, safety, and potential misuse. To address these issues, recent works have proposed to control model generation by steering model activations in order to effectively induce or prevent the emergence of concepts or behaviors in the generated output. In this paper we introduce Activation Transport (AcT), a general framework to steer activations guided by optimal transport theory that generalizes many previous activation-steering works. AcT is modality-agnostic and provides fine-grained control over the model behavior with negligible computational overhead, while minimally impacting model abilities. We experimentally show the effectiveness and versatility of our approach by addressing key challenges in large language models (LLMs) and text-to-image diffusion models (T2Is). For LLMs, we show that AcT can effectively mitigate toxicity, induce arbitrary concepts, and increase their truthfulness. In T2Is, we show how AcT enables fine-grained style control and concept negation.

Contrôle des modèles de langage et de diffusion par le transport des activations

Controlling Language and Diffusion Models by Transporting Activations

Résumé

Support