Les autoencodeurs parcimonieux peuvent-ils être utilisés pour décomposer et interpréter les vecteurs de direction ?
Can sparse autoencoders be used to decompose and interpret steering vectors?
November 13, 2024
Auteurs: Harry Mayne, Yushi Yang, Adam Mahdi
cs.AI
Résumé
Les vecteurs de direction sont une approche prometteuse pour contrôler le comportement des grands modèles de langage. Cependant, leurs mécanismes sous-jacents restent mal compris. Alors que les autoencodeurs parcimonieux (SAEs) peuvent offrir une méthode potentielle pour interpréter les vecteurs de direction, des découvertes récentes montrent que les vecteurs reconstruits par les SAE manquent souvent des propriétés de direction des vecteurs originaux. Cet article examine pourquoi l'application directe des SAE aux vecteurs de direction produit des décompositions trompeuses, identifiant deux raisons : (1) les vecteurs de direction se situent en dehors de la distribution d'entrée pour laquelle les SAE sont conçus, et (2) les vecteurs de direction peuvent avoir des projections négatives significatives dans les directions des caractéristiques, que les SAE ne sont pas conçus pour accommoder. Ces limitations entravent l'utilisation directe des SAE pour interpréter les vecteurs de direction.
English
Steering vectors are a promising approach to control the behaviour of large
language models. However, their underlying mechanisms remain poorly understood.
While sparse autoencoders (SAEs) may offer a potential method to interpret
steering vectors, recent findings show that SAE-reconstructed vectors often
lack the steering properties of the original vectors. This paper investigates
why directly applying SAEs to steering vectors yields misleading
decompositions, identifying two reasons: (1) steering vectors fall outside the
input distribution for which SAEs are designed, and (2) steering vectors can
have meaningful negative projections in feature directions, which SAEs are not
designed to accommodate. These limitations hinder the direct use of SAEs for
interpreting steering vectors.Summary
AI-Generated Summary