젬마 범위: 젬마 2에서 한꺼번에 모든 곳에 열린 희소 오토인코더

Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2

August 9, 2024
저자: Tom Lieberum, Senthooran Rajamanoharan, Arthur Conmy, Lewis Smith, Nicolas Sonnerat, Vikrant Varma, János Kramár, Anca Dragan, Rohin Shah, Neel Nanda
cs.AI

초록

희소 오토인코더(SAE)는 신경망의 잠재 표현을 희소하게 분해하여 해석 가능한 특징으로 보이도록 학습하는 비지도 학습 방법입니다. 최근 그들의 잠재력에 대한 흥미가 높아지고 있지만, 산업 외의 연구 응용은 SAE의 포괄적인 스위트를 훈련하는 높은 비용으로 제한됩니다. 본 연구에서는 Gemma 2 2B 및 9B의 모든 레이어 및 서브 레이어에서 훈련된 JumpReLU SAE의 오픈 스위트인 Gemma Scope를 소개합니다. 우리는 주로 Gemma 2 사전 훈련 모델에서 SAE를 훈련하지만, 비교를 위해 지시 조정된 Gemma 2 9B에서 훈련된 SAE도 추가로 공개합니다. 각 SAE의 품질을 표준 지표로 평가하고 이러한 결과를 공개합니다. 이러한 SAE 가중치를 공개함으로써 더 많은 야심찬 안전성 및 해석 가능성 연구가 커뮤니티에게 더 쉽게 이루어지길 희망합니다. 가중치와 튜토리얼은 https://huggingface.co/google/gemma-scope에서 찾을 수 있으며, 대화형 데모는 https://www.neuronpedia.org/gemma-scope에서 확인할 수 있습니다.
English
Sparse autoencoders (SAEs) are an unsupervised method for learning a sparse decomposition of a neural network's latent representations into seemingly interpretable features. Despite recent excitement about their potential, research applications outside of industry are limited by the high cost of training a comprehensive suite of SAEs. In this work, we introduce Gemma Scope, an open suite of JumpReLU SAEs trained on all layers and sub-layers of Gemma 2 2B and 9B and select layers of Gemma 2 27B base models. We primarily train SAEs on the Gemma 2 pre-trained models, but additionally release SAEs trained on instruction-tuned Gemma 2 9B for comparison. We evaluate the quality of each SAE on standard metrics and release these results. We hope that by releasing these SAE weights, we can help make more ambitious safety and interpretability research easier for the community. Weights and a tutorial can be found at https://huggingface.co/google/gemma-scope and an interactive demo can be found at https://www.neuronpedia.org/gemma-scope

Summary

AI-Generated Summary

PDF402November 28, 2024