Kunnen schaarse auto-encoders worden gebruikt om stuurvectoren te ontbinden en interpreteren?

Can sparse autoencoders be used to decompose and interpret steering vectors?

November 13, 2024
Auteurs: Harry Mayne, Yushi Yang, Adam Mahdi
cs.AI

Samenvatting

Stuurvectoren zijn een veelbelovende benadering om het gedrag van grote taalmodellen te controleren. De onderliggende mechanismen ervan blijven echter slecht begrepen. Hoewel schaarse auto-encoders (SAE's) een potentieel interpretatiemiddel kunnen bieden voor stuurvectoren, tonen recente bevindingen aan dat SAE-herbouwde vectoren vaak de sturende eigenschappen van de oorspronkelijke vectoren missen. Dit artikel onderzoekt waarom het rechtstreeks toepassen van SAE's op stuurvectoren leidt tot misleidende decomposities, waarbij twee redenen worden geïdentificeerd: (1) stuurvectoren vallen buiten de invoerdistributie waarvoor SAE's zijn ontworpen, en (2) stuurvectoren kunnen betekenisvolle negatieve projecties hebben in eigenschapsrichtingen, waarvoor SAE's niet zijn ontworpen om te accommoderen. Deze beperkingen belemmeren het directe gebruik van SAE's voor het interpreteren van stuurvectoren.
English
Steering vectors are a promising approach to control the behaviour of large language models. However, their underlying mechanisms remain poorly understood. While sparse autoencoders (SAEs) may offer a potential method to interpret steering vectors, recent findings show that SAE-reconstructed vectors often lack the steering properties of the original vectors. This paper investigates why directly applying SAEs to steering vectors yields misleading decompositions, identifying two reasons: (1) steering vectors fall outside the input distribution for which SAEs are designed, and (2) steering vectors can have meaningful negative projections in feature directions, which SAEs are not designed to accommodate. These limitations hinder the direct use of SAEs for interpreting steering vectors.

Summary

AI-Generated Summary

PDF82November 14, 2024