Les autoencodeurs parcimonieux peuvent-ils être utilisés pour décomposer et interpréter les vecteurs de direction ?

Can sparse autoencoders be used to decompose and interpret steering vectors?

November 13, 2024
Auteurs: Harry Mayne, Yushi Yang, Adam Mahdi
cs.AI

Résumé

Les vecteurs de direction sont une approche prometteuse pour contrôler le comportement des grands modèles de langage. Cependant, leurs mécanismes sous-jacents restent mal compris. Alors que les autoencodeurs parcimonieux (SAEs) peuvent offrir une méthode potentielle pour interpréter les vecteurs de direction, des découvertes récentes montrent que les vecteurs reconstruits par les SAE manquent souvent des propriétés de direction des vecteurs originaux. Cet article examine pourquoi l'application directe des SAE aux vecteurs de direction produit des décompositions trompeuses, identifiant deux raisons : (1) les vecteurs de direction se situent en dehors de la distribution d'entrée pour laquelle les SAE sont conçus, et (2) les vecteurs de direction peuvent avoir des projections négatives significatives dans les directions des caractéristiques, que les SAE ne sont pas conçus pour accommoder. Ces limitations entravent l'utilisation directe des SAE pour interpréter les vecteurs de direction.
English
Steering vectors are a promising approach to control the behaviour of large language models. However, their underlying mechanisms remain poorly understood. While sparse autoencoders (SAEs) may offer a potential method to interpret steering vectors, recent findings show that SAE-reconstructed vectors often lack the steering properties of the original vectors. This paper investigates why directly applying SAEs to steering vectors yields misleading decompositions, identifying two reasons: (1) steering vectors fall outside the input distribution for which SAEs are designed, and (2) steering vectors can have meaningful negative projections in feature directions, which SAEs are not designed to accommodate. These limitations hinder the direct use of SAEs for interpreting steering vectors.

Summary

AI-Generated Summary

PDF82November 14, 2024