Fördern, Unterdrücken, Iterieren: Wie Sprachmodelle Eins-zu-Viele-Faktenabfragen beantworten
Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries
February 27, 2025
Autoren: Tianyi Lorena Yan, Robin Jia
cs.AI
Zusammenfassung
Um eins-zu-viele-Faktenabfragen zu beantworten (z. B. das Auflisten von Städten eines Landes), muss ein Sprachmodell (LM) gleichzeitig Wissen abrufen und die Wiederholung vorheriger Antworten vermeiden. Wie werden diese beiden Teilaufgaben intern implementiert und integriert? Über mehrere Datensätze und Modelle hinweg identifizieren wir einen Promote-then-Suppress-Mechanismus: Das Modell ruft zunächst alle Antworten ab und unterdrückt dann zuvor generierte. Konkret verwenden LMs sowohl das Subjekt als auch vorherige Antwort-Tokens, um den Wissensabruf durchzuführen, wobei die Aufmerksamkeit Subjektinformationen propagiert und MLPs die Antworten fördern. Anschließend richtet sich die Aufmerksamkeit auf vorherige Antwort-Tokens und unterdrückt diese, während MLPs das Unterdrückungssignal verstärken. Unser Mechanismus wird durch umfangreiche experimentelle Beweise gestützt: Neben der Verwendung von Early Decoding und Causal Tracing analysieren wir, wie Komponenten verschiedene Tokens nutzen, indem wir sowohl Token Lens einführen, das aggregierte Aufmerksamkeitsupdates von spezifizierten Tokens decodiert, als auch eine Knockout-Methode, die Änderungen in den MLP-Ausgaben nach dem Entfernen der Aufmerksamkeit auf spezifizierte Tokens analysiert. Insgesamt liefern wir neue Einblicke, wie die internen Komponenten von LMs mit verschiedenen Eingabe-Tokens interagieren, um komplexen Faktenabruf zu unterstützen. Der Code ist verfügbar unter https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.
English
To answer one-to-many factual queries (e.g., listing cities of a country), a
language model (LM) must simultaneously recall knowledge and avoid repeating
previous answers. How are these two subtasks implemented and integrated
internally? Across multiple datasets and models, we identify a
promote-then-suppress mechanism: the model first recalls all answers, and then
suppresses previously generated ones. Specifically, LMs use both the subject
and previous answer tokens to perform knowledge recall, with attention
propagating subject information and MLPs promoting the answers. Then, attention
attends to and suppresses previous answer tokens, while MLPs amplify the
suppression signal. Our mechanism is corroborated by extensive experimental
evidence: in addition to using early decoding and causal tracing, we analyze
how components use different tokens by introducing both Token Lens, which
decodes aggregated attention updates from specified tokens, and a knockout
method that analyzes changes in MLP outputs after removing attention to
specified tokens. Overall, we provide new insights into how LMs' internal
components interact with different input tokens to support complex factual
recall. Code is available at
https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.Summary
AI-Generated Summary