L'ablazione non è sufficiente per emulare DPO: Come la dinamica dei neuroni guida la riduzione della tossicità
Ablation is Not Enough to Emulate DPO: How Neuron Dynamics Drive Toxicity Reduction
November 10, 2024
Autori: Yushi Yang, Filip Sondej, Harry Mayne, Adam Mahdi
cs.AI
Abstract
Gli algoritmi di ottimizzazione della sicurezza sono comunemente utilizzati per ottimizzare i modelli linguistici al fine di ridurre le uscite dannose, ma i meccanismi interni esatti di come questi modelli raggiungano questo obiettivo rimangono poco chiari. Nello studio dell'ottimizzazione diretta delle preferenze (DPO) per la riduzione della tossicità, le spiegazioni attuali affermano che il DPO funziona attenuando i neuroni MLP più tossici per apprendere un offset per evitare le regioni tossiche nel flusso residuo. Tuttavia, mediante l'ablazione dei neuroni più tossici e l'applicazione di patch di attivazione, troviamo che questa spiegazione è incompleta. Proiettando i cambiamenti di attivazione dei neuroni su una sonda di tossicità, scopriamo che solo il 31,8\% della riduzione della tossicità proviene dai neuroni tossici attenuati. Invece, il DPO riduce la tossicità accumulando effetti attraverso più gruppi di neuroni, riducendo sia la scrittura nella direzione tossica che promuovendo l'anti-tossicità nel flusso residuo. Inoltre, il DPO fornisce aggiustamenti rumorosi alle attivazioni dei neuroni, con molti neuroni che aumentano effettivamente la tossicità. Ciò indica che il DPO è un processo di bilanciamento tra effetti opposti dei neuroni per ottenere la riduzione della tossicità.
English
Safety fine-tuning algorithms are commonly used to fine-tune language models
to reduce harmful outputs, but the exact internal mechanisms of how those
models achieve this remain unclear. In studying direct preference optimisation
(DPO) for toxicity reduction, current explanations claim that DPO works by
dampening the most toxic MLP neurons to learn an offset to avert toxic regions
in the residual stream. However, by ablating the most toxic neurons and
applying activation patching, we find this explanation incomplete. By
projecting neuron activation changes onto a toxicity probe, we find that only
31.8\% of toxicity reduction comes from dampened toxic neurons. Instead, DPO
reduces toxicity by accumulating effects across multiple neuron groups, both
reducing writing in the toxic direction and promoting anti-toxicity in the
residual stream. Moreover, DPO gives noisy adjustments to neuron activations,
with many neurons actually increasing toxicity. This indicates that DPO is a
balancing process between opposing neuron effects to achieve toxicity
reduction.Summary
AI-Generated Summary