어둠 물질 해독: 기초 모델에서 희귀한 개념을 해석하기 위한 전문 희소 오토인코더

Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models

November 1, 2024
저자: Aashiq Muhamed, Mona Diab, Virginia Smith
cs.AI

초록

기초 모델(FMs)과 관련된 잠재적 위험을 이해하고 완화하는 데는 효과적인 해석 가능성 방법을 개발하는 데 달려 있습니다. 희소 오토인코더(SAEs)는 FM 표현을 해체하는 데 유망한 도구로 등장했지만, 데이터에서 드물지만 중요한 개념을 포착하는 데 어려움을 겪습니다. 우리는 특수 희소 오토인코더(SSAEs)를 소개합니다. SSAEs는 특정 하위 영역에 집중하여 이 난해한 어두운 요소를 명확히 하는 데 사용됩니다. SSAEs의 훈련을 위한 실용적인 방법론을 제시하며, 데이터 선택을 위한 밀집 검색의 효과성과 개념 회수를 향상시키기 위한 기울어진 경험적 위험 최소화의 이점을 보여줍니다. 우리는 SSAEs의 표준 메트릭인 하류 헷갈림(perplexity) 및 L_0 희소성 등을 평가하고, 이들이 하위 영역 꼬리 개념을 효과적으로 포착하여 일반 목적 SAE의 능력을 능가한다는 것을 보여줍니다. SSAEs의 실용적 유틸리티를 보여주기 위해 Bias in Bios 데이터셋에 대한 사례 연구를 소개합니다. 여기서 SSAEs는 잘못된 성별 정보를 제거하는 데 적용될 때 최악의 그룹 분류 정확도가 12.5% 향상됩니다. SSAEs는 하위 영역에서 FM의 내부 작동을 엿보는 강력한 새로운 시각을 제공합니다.
English
Understanding and mitigating the potential risks associated with foundation models (FMs) hinges on developing effective interpretability methods. Sparse Autoencoders (SAEs) have emerged as a promising tool for disentangling FM representations, but they struggle to capture rare, yet crucial concepts in the data. We introduce Specialized Sparse Autoencoders (SSAEs), designed to illuminate these elusive dark matter features by focusing on specific subdomains. We present a practical recipe for training SSAEs, demonstrating the efficacy of dense retrieval for data selection and the benefits of Tilted Empirical Risk Minimization as a training objective to improve concept recall. Our evaluation of SSAEs on standard metrics, such as downstream perplexity and L_0 sparsity, show that they effectively capture subdomain tail concepts, exceeding the capabilities of general-purpose SAEs. We showcase the practical utility of SSAEs in a case study on the Bias in Bios dataset, where SSAEs achieve a 12.5\% increase in worst-group classification accuracy when applied to remove spurious gender information. SSAEs provide a powerful new lens for peering into the inner workings of FMs in subdomains.

Summary

AI-Generated Summary

PDF62November 13, 2024