Tegenfeitelijke Generatie van Taalmodellen
Counterfactual Generation from Language Models
November 11, 2024
Auteurs: Shauli Ravfogel, Anej Svete, Vésteinn Snæbjarnarson, Ryan Cotterell
cs.AI
Samenvatting
Het begrijpen en manipuleren van de causale generatiemechanismen in taalmodellen is essentieel voor het controleren van hun gedrag. Eerdere onderzoeken hebben voornamelijk vertrouwd op technieken zoals representatiechirurgie - bijvoorbeeld modelablaties of manipulatie van lineaire deelruimten gekoppeld aan specifieke concepten - om in te grijpen in deze modellen. Om de impact van interventies nauwkeurig te begrijpen, is het nuttig om tegenfeitelijke situaties te onderzoeken - bijvoorbeeld hoe een gegeven zin eruit zou hebben gezien als deze was gegenereerd door het model na een specifieke interventie te volgen. We benadrukken dat tegenfeitelijke redenering conceptueel onderscheiden is van interventies, zoals gearticuleerd in Pearl's causale hiërarchie. Op basis van deze observatie stellen we een raamwerk voor om echte string tegenfeitelijke situaties te genereren door taalmodellen te hervormen als Algemene Structurele-Vergelijking Modellen met behulp van de Gumbel-max truc. Dit stelt ons in staat om de gezamenlijke verdeling over oorspronkelijke strings en hun tegenfeitelijke situaties die voortkomen uit dezelfde instantiatie van de steekproefruis te modelleren. We ontwikkelen een algoritme gebaseerd op hindsight Gumbel-steekproeven dat ons in staat stelt om de latente ruisvariabelen af te leiden en tegenfeitelijke situaties van waargenomen strings te genereren. Onze experimenten tonen aan dat de benadering zinvolle tegenfeitelijke situaties produceert, terwijl tegelijkertijd wordt aangetoond dat veelgebruikte interventietechnieken aanzienlijke ongewenste neveneffecten hebben.
English
Understanding and manipulating the causal generation mechanisms in language
models is essential for controlling their behavior. Previous work has primarily
relied on techniques such as representation surgery -- e.g., model ablations or
manipulation of linear subspaces tied to specific concepts -- to intervene on
these models. To understand the impact of interventions precisely, it is useful
to examine counterfactuals -- e.g., how a given sentence would have appeared
had it been generated by the model following a specific intervention. We
highlight that counterfactual reasoning is conceptually distinct from
interventions, as articulated in Pearl's causal hierarchy. Based on this
observation, we propose a framework for generating true string counterfactuals
by reformulating language models as Generalized Structural-equation. Models
using the Gumbel-max trick. This allows us to model the joint distribution over
original strings and their counterfactuals resulting from the same
instantiation of the sampling noise. We develop an algorithm based on hindsight
Gumbel sampling that allows us to infer the latent noise variables and generate
counterfactuals of observed strings. Our experiments demonstrate that the
approach produces meaningful counterfactuals while at the same time showing
that commonly used intervention techniques have considerable undesired side
effects.Summary
AI-Generated Summary