Gli SAE possono migliorare il disimparamento: Autoencoder Sparso Dinamico come Guardrail per il Disimparamento di Precisione nei Modelli Linguistici di Grande Dimensione
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs
April 11, 2025
Autori: Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith
cs.AI
Abstract
L'unapprendimento automatico rappresenta un approccio promettente per migliorare la sicurezza dei modelli linguistici di grandi dimensioni (LLM) rimuovendo conoscenze indesiderate dal modello. Tuttavia, i metodi prevalenti basati su gradienti per l'unapprendimento soffrono di problemi come elevati costi computazionali, instabilità degli iperparametri, scarsa capacità di unapprendimento sequenziale, vulnerabilità agli attacchi di riapprendimento, bassa efficienza dei dati e mancanza di interpretabilità. Sebbene gli Autoencoder Sparse (SAE) siano ben adatti a migliorare questi aspetti grazie alla possibilità di unapprendimento mirato basato sulle attivazioni, gli approcci precedenti si sono dimostrati inferiori ai metodi basati su gradienti. Questo lavoro dimostra che, contrariamente a questi risultati precedenti, gli SAE possono migliorare significativamente l'unapprendimento quando utilizzati in modo dinamico. Introduciamo Dynamic DAE Guardrails (DSG), un metodo innovativo per l'unapprendimento di precisione che sfrutta una selezione di feature basata su principi e un classificatore dinamico. I nostri esperimenti mostrano che DSG supera sostanzialmente i principali metodi di unapprendimento, raggiungendo un miglior compromesso tra dimenticanza e utilità. DSG affronta i principali limiti degli approcci basati su gradienti per l'unapprendimento, offrendo una maggiore efficienza computazionale e stabilità, prestazioni robuste nell'unapprendimento sequenziale, una maggiore resistenza agli attacchi di riapprendimento, una migliore efficienza dei dati anche in contesti zero-shot e un unapprendimento più interpretabile.
English
Machine unlearning is a promising approach to improve LLM safety by removing
unwanted knowledge from the model. However, prevailing gradient-based
unlearning methods suffer from issues such as high computational costs,
hyperparameter instability, poor sequential unlearning capability,
vulnerability to relearning attacks, low data efficiency, and lack of
interpretability. While Sparse Autoencoders are well-suited to improve these
aspects by enabling targeted activation-based unlearning, prior approaches
underperform gradient-based methods. This work demonstrates that, contrary to
these earlier findings, SAEs can significantly improve unlearning when employed
dynamically. We introduce Dynamic DAE Guardrails (DSG), a novel
method for precision unlearning that leverages principled feature selection and
a dynamic classifier. Our experiments show DSG substantially outperforms
leading unlearning methods, achieving superior forget-utility trade-offs. DSG
addresses key drawbacks of gradient-based approaches for unlearning -- offering
enhanced computational efficiency and stability, robust performance in
sequential unlearning, stronger resistance to relearning attacks, better data
efficiency including zero-shot settings, and more interpretable unlearning.Summary
AI-Generated Summary