Gli SAE possono migliorare il disimparamento: Autoencoder Sparso Dinamico come Guardrail per il Disimparamento di Precisione nei Modelli Linguistici di Grande Dimensione

Abstract

L'unapprendimento automatico rappresenta un approccio promettente per migliorare la sicurezza dei modelli linguistici di grandi dimensioni (LLM) rimuovendo conoscenze indesiderate dal modello. Tuttavia, i metodi prevalenti basati su gradienti per l'unapprendimento soffrono di problemi come elevati costi computazionali, instabilità degli iperparametri, scarsa capacità di unapprendimento sequenziale, vulnerabilità agli attacchi di riapprendimento, bassa efficienza dei dati e mancanza di interpretabilità. Sebbene gli Autoencoder Sparse (SAE) siano ben adatti a migliorare questi aspetti grazie alla possibilità di unapprendimento mirato basato sulle attivazioni, gli approcci precedenti si sono dimostrati inferiori ai metodi basati su gradienti. Questo lavoro dimostra che, contrariamente a questi risultati precedenti, gli SAE possono migliorare significativamente l'unapprendimento quando utilizzati in modo dinamico. Introduciamo Dynamic DAE Guardrails (DSG), un metodo innovativo per l'unapprendimento di precisione che sfrutta una selezione di feature basata su principi e un classificatore dinamico. I nostri esperimenti mostrano che DSG supera sostanzialmente i principali metodi di unapprendimento, raggiungendo un miglior compromesso tra dimenticanza e utilità. DSG affronta i principali limiti degli approcci basati su gradienti per l'unapprendimento, offrendo una maggiore efficienza computazionale e stabilità, prestazioni robuste nell'unapprendimento sequenziale, una maggiore resistenza agli attacchi di riapprendimento, una migliore efficienza dei dati anche in contesti zero-shot e un unapprendimento più interpretabile.

English

Machine unlearning is a promising approach to improve LLM safety by removing unwanted knowledge from the model. However, prevailing gradient-based unlearning methods suffer from issues such as high computational costs, hyperparameter instability, poor sequential unlearning capability, vulnerability to relearning attacks, low data efficiency, and lack of interpretability. While Sparse Autoencoders are well-suited to improve these aspects by enabling targeted activation-based unlearning, prior approaches underperform gradient-based methods. This work demonstrates that, contrary to these earlier findings, SAEs can significantly improve unlearning when employed dynamically. We introduce Dynamic DAE Guardrails (DSG), a novel method for precision unlearning that leverages principled feature selection and a dynamic classifier. Our experiments show DSG substantially outperforms leading unlearning methods, achieving superior forget-utility trade-offs. DSG addresses key drawbacks of gradient-based approaches for unlearning -- offering enhanced computational efficiency and stability, robust performance in sequential unlearning, stronger resistance to relearning attacks, better data efficiency including zero-shot settings, and more interpretable unlearning.

Gli SAE possono migliorare il disimparamento: Autoencoder Sparso Dinamico come Guardrail per il Disimparamento di Precisione nei Modelli Linguistici di Grande Dimensione

SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

Abstract

Summary

Support

Support