언어 모델에서 해석과 조작을 향상시키기 위해 특징 흐름을 분석하다.
Analyze Feature Flow to Enhance Interpretation and Steering in Language Models
February 5, 2025
저자: Daniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov
cs.AI
초록
우리는 대규모 언어 모델의 연이은 레이어 간에 발견된 특징을 체계적으로 매핑하는 새로운 접근 방식을 소개합니다. 이전 연구에서 레이어 간 특징 링크를 조사한 것을 확장하면서, 데이터 무관한 코사인 유사성 기술을 사용하여 특정 특징이 각 단계에서 어떻게 지속되고 변형되거나 처음 나타나는지를 추적합니다. 이 방법은 특징 진화의 세부적인 흐름 그래프를 제공하여 세밀한 해석 가능성과 모델 계산에 대한 메커니즘적 통찰력을 제공합니다. 중요한 점은 이러한 레이어 간 특징 맵이 모델 행동을 직접 조절하도록 하는데 어떻게 기여하는지를 시연하며, 선택한 특징을 강조하거나 억제함으로써 텍스트 생성에서 목표 주제 제어를 달성합니다. 우리의 연구 결과는 특징이 전진 패스를 통해 어떻게 발전하는지를 명확히 하는데 그치지 않고 대규모 언어 모델의 투명한 조작을 위한 새로운 수단을 제공하는 인과적이고 레이어 간 해석 가능성 프레임워크의 유용성을 강조합니다.
English
We introduce a new approach to systematically map features discovered by
sparse autoencoder across consecutive layers of large language models,
extending earlier work that examined inter-layer feature links. By using a
data-free cosine similarity technique, we trace how specific features persist,
transform, or first appear at each stage. This method yields granular flow
graphs of feature evolution, enabling fine-grained interpretability and
mechanistic insights into model computations. Crucially, we demonstrate how
these cross-layer feature maps facilitate direct steering of model behavior by
amplifying or suppressing chosen features, achieving targeted thematic control
in text generation. Together, our findings highlight the utility of a causal,
cross-layer interpretability framework that not only clarifies how features
develop through forward passes but also provides new means for transparent
manipulation of large language models.Summary
AI-Generated Summary