Ho Coperto Tutte le Basi: Interpretazione delle Caratteristiche di Ragionamento nei Modelli Linguistici di Grande Dimensione tramite Autoencoder Sparse
I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders
March 24, 2025
Autori: Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI
Abstract
I Modelli Linguistici di Grande Dimensione (LLM) hanno ottenuto un successo straordinario nell'elaborazione del linguaggio naturale. I recenti progressi hanno portato allo sviluppo di una nuova classe di LLM dedicati al ragionamento; ad esempio, il modello open-source DeepSeek-R1 ha raggiunto prestazioni all'avanguardia integrando pensiero profondo e ragionamento complesso. Nonostante queste capacità impressionanti, i meccanismi interni di ragionamento di tali modelli rimangono inesplorati. In questo lavoro, utilizziamo Autoencoder Sparse (SAE), un metodo per apprendere una scomposizione sparsa delle rappresentazioni latenti di una rete neurale in caratteristiche interpretabili, per identificare le caratteristiche che guidano il ragionamento nella serie di modelli DeepSeek-R1. In primo luogo, proponiamo un approccio per estrarre "caratteristiche di ragionamento" candidate dalle rappresentazioni SAE. Validiamo queste caratteristiche attraverso analisi empiriche e metodi di interpretabilità, dimostrando la loro correlazione diretta con le capacità di ragionamento del modello. In modo cruciale, dimostriamo che la guida di queste caratteristiche migliora sistematicamente le prestazioni di ragionamento, offrendo il primo resoconto meccanicistico del ragionamento negli LLM. Il codice è disponibile all'indirizzo https://github.com/AIRI-Institute/SAE-Reasoning.
English
Large Language Models (LLMs) have achieved remarkable success in natural
language processing. Recent advances have led to the developing of a new class
of reasoning LLMs; for example, open-source DeepSeek-R1 has achieved
state-of-the-art performance by integrating deep thinking and complex
reasoning. Despite these impressive capabilities, the internal reasoning
mechanisms of such models remain unexplored. In this work, we employ Sparse
Autoencoders (SAEs), a method to learn a sparse decomposition of latent
representations of a neural network into interpretable features, to identify
features that drive reasoning in the DeepSeek-R1 series of models. First, we
propose an approach to extract candidate ''reasoning features'' from SAE
representations. We validate these features through empirical analysis and
interpretability methods, demonstrating their direct correlation with the
model's reasoning abilities. Crucially, we demonstrate that steering these
features systematically enhances reasoning performance, offering the first
mechanistic account of reasoning in LLMs. Code available at
https://github.com/AIRI-Institute/SAE-ReasoningSummary
AI-Generated Summary