Können Sparse Autoencoder verwendet werden, um Lenkvektoren zu zerlegen und zu interpretieren?
Can sparse autoencoders be used to decompose and interpret steering vectors?
November 13, 2024
Autoren: Harry Mayne, Yushi Yang, Adam Mahdi
cs.AI
Zusammenfassung
Steuerungsvektoren sind ein vielversprechender Ansatz zur Steuerung des Verhaltens großer Sprachmodelle. Ihre zugrunde liegenden Mechanismen sind jedoch noch schlecht verstanden. Obwohl dünn besetzte Autoencoder (SAEs) eine potenzielle Methode zur Interpretation von Steuerungsvektoren darstellen könnten, zeigen aktuelle Erkenntnisse, dass SAE-rekonstruierte Vektoren oft die Steuereigenschaften der Originalvektoren vermissen lassen. Diese Arbeit untersucht, warum die direkte Anwendung von SAEs auf Steuerungsvektoren zu irreführenden Zerlegungen führt und identifiziert zwei Gründe: (1) Steuerungsvektoren liegen außerhalb der Eingabeverteilung, für die SAEs konzipiert sind, und (2) Steuerungsvektoren können sinnvolle negative Projektionen in Merkmalsrichtungen aufweisen, die SAEs nicht berücksichtigen. Diese Einschränkungen behindern den direkten Einsatz von SAEs zur Interpretation von Steuerungsvektoren.
English
Steering vectors are a promising approach to control the behaviour of large
language models. However, their underlying mechanisms remain poorly understood.
While sparse autoencoders (SAEs) may offer a potential method to interpret
steering vectors, recent findings show that SAE-reconstructed vectors often
lack the steering properties of the original vectors. This paper investigates
why directly applying SAEs to steering vectors yields misleading
decompositions, identifying two reasons: (1) steering vectors fall outside the
input distribution for which SAEs are designed, and (2) steering vectors can
have meaningful negative projections in feature directions, which SAEs are not
designed to accommodate. These limitations hinder the direct use of SAEs for
interpreting steering vectors.Summary
AI-Generated Summary