Generazione di Controfattuali da Modelli Linguistici
Counterfactual Generation from Language Models
November 11, 2024
Autori: Shauli Ravfogel, Anej Svete, Vésteinn Snæbjarnarson, Ryan Cotterell
cs.AI
Abstract
Comprendere e manipolare i meccanismi di generazione causale nei modelli linguistici è essenziale per controllarne il comportamento. Lavori precedenti si sono basati principalmente su tecniche come la chirurgia della rappresentazione - ad esempio, ablazioni del modello o manipolazione di sottospazi lineari legati a concetti specifici - per intervenire su questi modelli. Per comprendere con precisione l'impatto delle interventi, è utile esaminare i controfattuali - ad esempio, come sarebbe apparsa una data frase se fosse stata generata dal modello seguendo un intervento specifico. Sottolineiamo che il ragionamento controfattuale è concettualmente distinto dagli interventi, come articolato nella gerarchia causale di Pearl. Sulla base di questa osservazione, proponiamo un framework per generare veri controfattuali di stringhe riformulando i modelli linguistici come Modelli di Equazioni Strutturali Generalizzate utilizzando il trucco Gumbel-max. Ciò ci consente di modellare la distribuzione congiunta su stringhe originali e i loro controfattuali risultanti dalla stessa istanziazione del rumore di campionamento. Sviluppiamo un algoritmo basato sul campionamento Gumbel a posteriori che ci permette di inferire le variabili latenti di rumore e generare controfattuali di stringhe osservate. I nostri esperimenti dimostrano che l'approccio produce controfattuali significativi mostrando al contempo che le tecniche di intervento comunemente utilizzate hanno considerevoli effetti collaterali indesiderati.
English
Understanding and manipulating the causal generation mechanisms in language
models is essential for controlling their behavior. Previous work has primarily
relied on techniques such as representation surgery -- e.g., model ablations or
manipulation of linear subspaces tied to specific concepts -- to intervene on
these models. To understand the impact of interventions precisely, it is useful
to examine counterfactuals -- e.g., how a given sentence would have appeared
had it been generated by the model following a specific intervention. We
highlight that counterfactual reasoning is conceptually distinct from
interventions, as articulated in Pearl's causal hierarchy. Based on this
observation, we propose a framework for generating true string counterfactuals
by reformulating language models as Generalized Structural-equation. Models
using the Gumbel-max trick. This allows us to model the joint distribution over
original strings and their counterfactuals resulting from the same
instantiation of the sampling noise. We develop an algorithm based on hindsight
Gumbel sampling that allows us to infer the latent noise variables and generate
counterfactuals of observed strings. Our experiments demonstrate that the
approach produces meaningful counterfactuals while at the same time showing
that commonly used intervention techniques have considerable undesired side
effects.Summary
AI-Generated Summary