L'ablation n'est pas suffisante pour émuler DPO : Comment la dynamique des neurones conduit à la réduction de la toxicité

Ablation is Not Enough to Emulate DPO: How Neuron Dynamics Drive Toxicity Reduction

November 10, 2024
Auteurs: Yushi Yang, Filip Sondej, Harry Mayne, Adam Mahdi
cs.AI

Résumé

Les algorithmes de peaufinage de la sécurité sont couramment utilisés pour affiner les modèles de langage afin de réduire les sorties nuisibles, mais les mécanismes internes exacts par lesquels ces modèles y parviennent restent flous. En étudiant l'optimisation des préférences directes (OPD) pour la réduction de la toxicité, les explications actuelles affirment que l'OPD fonctionne en atténuant les neurones MLP les plus toxiques pour apprendre un décalage afin d'éviter les régions toxiques dans le flux résiduel. Cependant, en ablatant les neurones les plus toxiques et en appliquant un patch d'activation, nous constatons que cette explication est incomplète. En projetant les changements d'activation des neurones sur une sonde de toxicité, nous constatons que seuls 31,8\% de la réduction de la toxicité proviennent des neurones toxiques atténués. Au lieu de cela, l'OPD réduit la toxicité en accumulant les effets à travers plusieurs groupes de neurones, à la fois en réduisant l'écriture dans la direction toxique et en favorisant l'anti-toxicité dans le flux résiduel. De plus, l'OPD apporte des ajustements bruyants aux activations des neurones, de nombreux neurones augmentant en fait la toxicité. Cela indique que l'OPD est un processus d'équilibrage entre les effets opposés des neurones pour parvenir à une réduction de la toxicité.
English
Safety fine-tuning algorithms are commonly used to fine-tune language models to reduce harmful outputs, but the exact internal mechanisms of how those models achieve this remain unclear. In studying direct preference optimisation (DPO) for toxicity reduction, current explanations claim that DPO works by dampening the most toxic MLP neurons to learn an offset to avert toxic regions in the residual stream. However, by ablating the most toxic neurons and applying activation patching, we find this explanation incomplete. By projecting neuron activation changes onto a toxicity probe, we find that only 31.8\% of toxicity reduction comes from dampened toxic neurons. Instead, DPO reduces toxicity by accumulating effects across multiple neuron groups, both reducing writing in the toxic direction and promoting anti-toxicity in the residual stream. Moreover, DPO gives noisy adjustments to neuron activations, with many neurons actually increasing toxicity. This indicates that DPO is a balancing process between opposing neuron effects to achieve toxicity reduction.

Summary

AI-Generated Summary

PDF52November 12, 2024