Verbesserung der automatisierten Interpretierbarkeit mit outputzentrierten Merkmalsbeschreibungen

Enhancing Automated Interpretability with Output-Centric Feature Descriptions

January 14, 2025
Autoren: Yoav Gur-Arieh, Roy Mayan, Chen Agassy, Atticus Geiger, Mor Geva
cs.AI

Zusammenfassung

Automatisierte Interpretierbarkeits-Pipelines generieren natürlichsprachliche Beschreibungen für die von Merkmalen in großen Sprachmodellen (LLMs) repräsentierten Konzepte, wie z.B. Pflanzen oder das erste Wort in einem Satz. Diese Beschreibungen werden mithilfe von Eingaben abgeleitet, die das Merkmal aktivieren, das eine Dimension oder eine Richtung im Darstellungsraum des Modells sein kann. Die Identifizierung aktivierender Eingaben ist jedoch kostspielig, und die mechanistische Rolle eines Merkmals im Verhalten des Modells wird sowohl davon bestimmt, wie Eingaben dazu führen, dass ein Merkmal aktiviert wird, als auch davon, wie die Aktivierung des Merkmals die Ausgaben beeinflusst. Durch die Verwendung von Lenkungsbewertungen zeigen wir auf, dass aktuelle Pipelines Beschreibungen liefern, die den kausalen Effekt des Merkmals auf die Ausgaben nicht erfassen. Um dies zu beheben, schlagen wir effiziente, ausgabenzentrierte Methoden zur automatischen Generierung von Merkmalsbeschreibungen vor. Diese Methoden verwenden die nach der Merkmalstimulation stärker gewichteten Token oder die Tokens mit dem höchsten Gewicht nach direkter Anwendung des Vokabulars "Unembedding" auf das Merkmal. Unsere ausgabenzentrierten Beschreibungen erfassen den kausalen Effekt eines Merkmals auf die Modellausgaben besser als eingabenzentrierte Beschreibungen, aber die Kombination beider führt zu der besten Leistung sowohl bei Eingabe- als auch bei Ausgabebewertungen. Schließlich zeigen wir, dass ausgabenzentrierte Beschreibungen verwendet werden können, um Eingaben zu finden, die Merkmale aktivieren, die zuvor als "inaktiv" betrachtet wurden.
English
Automated interpretability pipelines generate natural language descriptions for the concepts represented by features in large language models (LLMs), such as plants or the first word in a sentence. These descriptions are derived using inputs that activate the feature, which may be a dimension or a direction in the model's representation space. However, identifying activating inputs is costly, and the mechanistic role of a feature in model behavior is determined both by how inputs cause a feature to activate and by how feature activation affects outputs. Using steering evaluations, we reveal that current pipelines provide descriptions that fail to capture the causal effect of the feature on outputs. To fix this, we propose efficient, output-centric methods for automatically generating feature descriptions. These methods use the tokens weighted higher after feature stimulation or the highest weight tokens after applying the vocabulary "unembedding" head directly to the feature. Our output-centric descriptions better capture the causal effect of a feature on model outputs than input-centric descriptions, but combining the two leads to the best performance on both input and output evaluations. Lastly, we show that output-centric descriptions can be used to find inputs that activate features previously thought to be "dead".

Summary

AI-Generated Summary

PDF102January 15, 2025