Controllare i Modelli di Linguaggio e di Diffusione Trasportando Attivazioni
Controlling Language and Diffusion Models by Transporting Activations
October 30, 2024
Autori: Pau Rodriguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau
cs.AI
Abstract
Le crescenti capacità dei grandi modelli generativi e la loro sempre più diffusa implementazione hanno sollevato preoccupazioni sulla loro affidabilità, sicurezza e potenziale abuso. Per affrontare tali questioni, lavori recenti hanno proposto di controllare la generazione del modello guidando le attivazioni del modello al fine di indurre o prevenire in modo efficace l'emergere di concetti o comportamenti nell'output generato. In questo articolo presentiamo Activation Transport (AcT), un framework generale per guidare le attivazioni guidato dalla teoria del trasporto ottimale che generalizza molti lavori precedenti di guida delle attivazioni. AcT è agnostico alla modalità e fornisce un controllo dettagliato sul comportamento del modello con un sovraccarico computazionale trascurabile, influenzando minimamente le capacità del modello. Mostriamo sperimentalmente l'efficacia e la versatilità del nostro approccio affrontando sfide chiave nei grandi modelli linguistici (LLM) e nei modelli di diffusione testo-immagine (T2Is). Per i LLM, mostriamo che AcT può mitigare efficacemente la tossicità, indurre concetti arbitrari e aumentarne la veridicità. Per i T2Is, mostriamo come AcT abiliti un controllo dettagliato dello stile e la negazione dei concetti.
English
The increasing capabilities of large generative models and their ever more
widespread deployment have raised concerns about their reliability, safety, and
potential misuse. To address these issues, recent works have proposed to
control model generation by steering model activations in order to effectively
induce or prevent the emergence of concepts or behaviors in the generated
output. In this paper we introduce Activation Transport (AcT), a general
framework to steer activations guided by optimal transport theory that
generalizes many previous activation-steering works. AcT is modality-agnostic
and provides fine-grained control over the model behavior with negligible
computational overhead, while minimally impacting model abilities. We
experimentally show the effectiveness and versatility of our approach by
addressing key challenges in large language models (LLMs) and text-to-image
diffusion models (T2Is). For LLMs, we show that AcT can effectively mitigate
toxicity, induce arbitrary concepts, and increase their truthfulness. In T2Is,
we show how AcT enables fine-grained style control and concept negation.Summary
AI-Generated Summary