Génération de contre-factuels à partir de modèles de langage
Counterfactual Generation from Language Models
November 11, 2024
Auteurs: Shauli Ravfogel, Anej Svete, Vésteinn Snæbjarnarson, Ryan Cotterell
cs.AI
Résumé
Comprendre et manipuler les mécanismes de génération causale dans les modèles de langage est essentiel pour contrôler leur comportement. Les travaux précédents se sont principalement appuyés sur des techniques telles que la chirurgie de représentation - par exemple, des ablations de modèle ou la manipulation de sous-espaces linéaires liés à des concepts spécifiques - pour intervenir sur ces modèles. Pour comprendre précisément l'impact des interventions, il est utile d'examiner les contre-factuels - par exemple, comment une phrase donnée aurait apparu si elle avait été générée par le modèle suivant une intervention spécifique. Nous soulignons que le raisonnement contre-factuel est conceptuellement distinct des interventions, tel qu'articulé dans la hiérarchie causale de Pearl. Sur la base de cette observation, nous proposons un cadre pour générer de vrais contre-factuels de chaînes en reformulant les modèles de langage en tant que modèles d'équations structurelles généralisées utilisant l'astuce Gumbel-max. Cela nous permet de modéliser la distribution conjointe sur les chaînes originales et leurs contre-factuels résultant de la même instantiation du bruit d'échantillonnage. Nous développons un algorithme basé sur l'échantillonnage Gumbel rétrospectif qui nous permet d'inférer les variables de bruit latentes et de générer des contre-factuels de chaînes observées. Nos expériences démontrent que l'approche produit des contre-factuels significatifs tout en montrant en même temps que les techniques d'intervention couramment utilisées ont des effets secondaires indésirables considérables.
English
Understanding and manipulating the causal generation mechanisms in language
models is essential for controlling their behavior. Previous work has primarily
relied on techniques such as representation surgery -- e.g., model ablations or
manipulation of linear subspaces tied to specific concepts -- to intervene on
these models. To understand the impact of interventions precisely, it is useful
to examine counterfactuals -- e.g., how a given sentence would have appeared
had it been generated by the model following a specific intervention. We
highlight that counterfactual reasoning is conceptually distinct from
interventions, as articulated in Pearl's causal hierarchy. Based on this
observation, we propose a framework for generating true string counterfactuals
by reformulating language models as Generalized Structural-equation. Models
using the Gumbel-max trick. This allows us to model the joint distribution over
original strings and their counterfactuals resulting from the same
instantiation of the sampling noise. We develop an algorithm based on hindsight
Gumbel sampling that allows us to infer the latent noise variables and generate
counterfactuals of observed strings. Our experiments demonstrate that the
approach produces meaningful counterfactuals while at the same time showing
that commonly used intervention techniques have considerable undesired side
effects.Summary
AI-Generated Summary