Possono gli autoencoder sparsi essere utilizzati per decomporre e interpretare vettori di steering?
Can sparse autoencoders be used to decompose and interpret steering vectors?
November 13, 2024
Autori: Harry Mayne, Yushi Yang, Adam Mahdi
cs.AI
Abstract
I vettori di steering sono un approccio promettente per controllare il comportamento dei grandi modelli linguistici. Tuttavia, i loro meccanismi sottostanti rimangono poco compresi. Mentre gli autoencoder sparsi (SAE) potrebbero offrire un metodo potenziale per interpretare i vettori di steering, recenti scoperte mostrano che i vettori ricostruiti da SAE spesso mancano delle proprietà di steering dei vettori originali. Questo articolo investiga il motivo per cui l'applicazione diretta di SAE ai vettori di steering produce decomposizioni fuorvianti, identificando due motivi: (1) i vettori di steering si trovano al di fuori della distribuzione di input per la quale SAE sono progettati e (2) i vettori di steering possono avere proiezioni negative significative nelle direzioni delle caratteristiche, che SAE non sono progettati per gestire. Queste limitazioni ostacolano l'uso diretto di SAE per interpretare i vettori di steering.
English
Steering vectors are a promising approach to control the behaviour of large
language models. However, their underlying mechanisms remain poorly understood.
While sparse autoencoders (SAEs) may offer a potential method to interpret
steering vectors, recent findings show that SAE-reconstructed vectors often
lack the steering properties of the original vectors. This paper investigates
why directly applying SAEs to steering vectors yields misleading
decompositions, identifying two reasons: (1) steering vectors fall outside the
input distribution for which SAEs are designed, and (2) steering vectors can
have meaningful negative projections in feature directions, which SAEs are not
designed to accommodate. These limitations hinder the direct use of SAEs for
interpreting steering vectors.Summary
AI-Generated Summary