Verbesserung der automatisierten Interpretierbarkeit mit outputzentrierten Merkmalsbeschreibungen
Enhancing Automated Interpretability with Output-Centric Feature Descriptions
January 14, 2025
Autoren: Yoav Gur-Arieh, Roy Mayan, Chen Agassy, Atticus Geiger, Mor Geva
cs.AI
Zusammenfassung
Automatisierte Interpretierbarkeits-Pipelines generieren natürlichsprachliche Beschreibungen für die von Merkmalen in großen Sprachmodellen (LLMs) repräsentierten Konzepte, wie z.B. Pflanzen oder das erste Wort in einem Satz. Diese Beschreibungen werden mithilfe von Eingaben abgeleitet, die das Merkmal aktivieren, das eine Dimension oder eine Richtung im Darstellungsraum des Modells sein kann. Die Identifizierung aktivierender Eingaben ist jedoch kostspielig, und die mechanistische Rolle eines Merkmals im Verhalten des Modells wird sowohl davon bestimmt, wie Eingaben dazu führen, dass ein Merkmal aktiviert wird, als auch davon, wie die Aktivierung des Merkmals die Ausgaben beeinflusst. Durch die Verwendung von Lenkungsbewertungen zeigen wir auf, dass aktuelle Pipelines Beschreibungen liefern, die den kausalen Effekt des Merkmals auf die Ausgaben nicht erfassen. Um dies zu beheben, schlagen wir effiziente, ausgabenzentrierte Methoden zur automatischen Generierung von Merkmalsbeschreibungen vor. Diese Methoden verwenden die nach der Merkmalstimulation stärker gewichteten Token oder die Tokens mit dem höchsten Gewicht nach direkter Anwendung des Vokabulars "Unembedding" auf das Merkmal. Unsere ausgabenzentrierten Beschreibungen erfassen den kausalen Effekt eines Merkmals auf die Modellausgaben besser als eingabenzentrierte Beschreibungen, aber die Kombination beider führt zu der besten Leistung sowohl bei Eingabe- als auch bei Ausgabebewertungen. Schließlich zeigen wir, dass ausgabenzentrierte Beschreibungen verwendet werden können, um Eingaben zu finden, die Merkmale aktivieren, die zuvor als "inaktiv" betrachtet wurden.
English
Automated interpretability pipelines generate natural language descriptions
for the concepts represented by features in large language models (LLMs), such
as plants or the first word in a sentence. These descriptions are derived using
inputs that activate the feature, which may be a dimension or a direction in
the model's representation space. However, identifying activating inputs is
costly, and the mechanistic role of a feature in model behavior is determined
both by how inputs cause a feature to activate and by how feature activation
affects outputs. Using steering evaluations, we reveal that current pipelines
provide descriptions that fail to capture the causal effect of the feature on
outputs. To fix this, we propose efficient, output-centric methods for
automatically generating feature descriptions. These methods use the tokens
weighted higher after feature stimulation or the highest weight tokens after
applying the vocabulary "unembedding" head directly to the feature. Our
output-centric descriptions better capture the causal effect of a feature on
model outputs than input-centric descriptions, but combining the two leads to
the best performance on both input and output evaluations. Lastly, we show that
output-centric descriptions can be used to find inputs that activate features
previously thought to be "dead".Summary
AI-Generated Summary