Ich habe alle Grundlagen abgedeckt: Interpretation von Argumentationsmerkmalen in großen Sprachmodellen mittels sparser Autoencoder.
I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders
March 24, 2025
Autoren: Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge in der natürlichen Sprachverarbeitung erzielt. Jüngste Fortschritte haben zur Entwicklung einer neuen Klasse von LLMs geführt, die auf logisches Denken spezialisiert sind; beispielsweise hat das Open-Source-Modell DeepSeek-R1 durch die Integration von tiefem Denken und komplexer Argumentation Spitzenleistungen erreicht. Trotz dieser beeindruckenden Fähigkeiten bleiben die internen Denkmechanismen solcher Modelle weitgehend unerforscht. In dieser Arbeit verwenden wir Sparse Autoencoder (SAEs), eine Methode zur Erstellung einer spärlichen Zerlegung latenter Repräsentationen eines neuronalen Netzwerks in interpretierbare Merkmale, um die Merkmale zu identifizieren, die das Denken in der DeepSeek-R1-Modellreihe antreiben. Zunächst schlagen wir einen Ansatz vor, um Kandidaten für „Denkmerkmale“ aus den SAE-Repräsentationen zu extrahieren. Wir validieren diese Merkmale durch empirische Analysen und Interpretationsmethoden und zeigen ihre direkte Korrelation mit den Denkfähigkeiten des Modells. Entscheidend ist, dass wir nachweisen, dass die gezielte Steuerung dieser Merkmale die Denkleistung systematisch verbessert, was den ersten mechanistischen Einblick in das Denken von LLMs bietet. Der Code ist verfügbar unter https://github.com/AIRI-Institute/SAE-Reasoning.
English
Large Language Models (LLMs) have achieved remarkable success in natural
language processing. Recent advances have led to the developing of a new class
of reasoning LLMs; for example, open-source DeepSeek-R1 has achieved
state-of-the-art performance by integrating deep thinking and complex
reasoning. Despite these impressive capabilities, the internal reasoning
mechanisms of such models remain unexplored. In this work, we employ Sparse
Autoencoders (SAEs), a method to learn a sparse decomposition of latent
representations of a neural network into interpretable features, to identify
features that drive reasoning in the DeepSeek-R1 series of models. First, we
propose an approach to extract candidate ''reasoning features'' from SAE
representations. We validate these features through empirical analysis and
interpretability methods, demonstrating their direct correlation with the
model's reasoning abilities. Crucially, we demonstrate that steering these
features systematically enhances reasoning performance, offering the first
mechanistic account of reasoning in LLMs. Code available at
https://github.com/AIRI-Institute/SAE-ReasoningSummary
AI-Generated Summary