Ablation allein reicht nicht aus, um DPO zu emulieren: Wie Neuronendynamik die Reduzierung von Toxizität vorantreibt.

papers.abstract

Sicherheitsfeinabstimmungsalgorithmen werden häufig verwendet, um Sprachmodelle feinzustimmen und schädliche Ausgaben zu reduzieren, aber die genauen internen Mechanismen, wie diese Modelle dies erreichen, bleiben unklar. Bei der Untersuchung der direkten Präferenzoptimierung (DPO) zur Reduzierung von Toxizität behaupten aktuelle Erklärungen, dass DPO funktioniert, indem die giftigsten MLP-Neuronen gedämpft werden, um einen Versatz zu erlernen, der giftige Bereiche im Reststrom vermeidet. Jedoch finden wir durch die Entfernung der giftigsten Neuronen und die Anwendung von Aktivierungspatching, dass diese Erklärung unvollständig ist. Durch die Projektion von Neuronenaktivitätsänderungen auf eine Toxizitätsprobe stellen wir fest, dass nur 31,8\% der Toxizitätsreduktion von gedämpften giftigen Neuronen stammen. Stattdessen reduziert DPO die Toxizität, indem es Effekte über mehrere Neuronengruppen hinweg akkumuliert, sowohl das Schreiben in die giftige Richtung reduziert als auch die Antitoxizität im Reststrom fördert. Darüber hinaus führt DPO zu ungenauen Anpassungen der Neuronenaktivierungen, wobei viele Neuronen tatsächlich die Toxizität erhöhen. Dies deutet darauf hin, dass DPO ein Ausgleichsprozess zwischen entgegengesetzten Neuroneneffekten ist, um eine Toxizitätsreduktion zu erreichen.

English

Safety fine-tuning algorithms are commonly used to fine-tune language models to reduce harmful outputs, but the exact internal mechanisms of how those models achieve this remain unclear. In studying direct preference optimisation (DPO) for toxicity reduction, current explanations claim that DPO works by dampening the most toxic MLP neurons to learn an offset to avert toxic regions in the residual stream. However, by ablating the most toxic neurons and applying activation patching, we find this explanation incomplete. By projecting neuron activation changes onto a toxicity probe, we find that only 31.8\% of toxicity reduction comes from dampened toxic neurons. Instead, DPO reduces toxicity by accumulating effects across multiple neuron groups, both reducing writing in the toxic direction and promoting anti-toxicity in the residual stream. Moreover, DPO gives noisy adjustments to neuron activations, with many neurons actually increasing toxicity. This indicates that DPO is a balancing process between opposing neuron effects to achieve toxicity reduction.

Ablation allein reicht nicht aus, um DPO zu emulieren: Wie Neuronendynamik die Reduzierung von Toxizität vorantreibt.

Ablation is Not Enough to Emulate DPO: How Neuron Dynamics Drive Toxicity Reduction

papers.abstract

Support