Fördern, Unterdrücken, Iterieren: Wie Sprachmodelle Eins-zu-Viele-Faktenabfragen beantworten

Zusammenfassung

Um eins-zu-viele-Faktenabfragen zu beantworten (z. B. das Auflisten von Städten eines Landes), muss ein Sprachmodell (LM) gleichzeitig Wissen abrufen und die Wiederholung vorheriger Antworten vermeiden. Wie werden diese beiden Teilaufgaben intern implementiert und integriert? Über mehrere Datensätze und Modelle hinweg identifizieren wir einen Promote-then-Suppress-Mechanismus: Das Modell ruft zunächst alle Antworten ab und unterdrückt dann zuvor generierte. Konkret verwenden LMs sowohl das Subjekt als auch vorherige Antwort-Tokens, um den Wissensabruf durchzuführen, wobei die Aufmerksamkeit Subjektinformationen propagiert und MLPs die Antworten fördern. Anschließend richtet sich die Aufmerksamkeit auf vorherige Antwort-Tokens und unterdrückt diese, während MLPs das Unterdrückungssignal verstärken. Unser Mechanismus wird durch umfangreiche experimentelle Beweise gestützt: Neben der Verwendung von Early Decoding und Causal Tracing analysieren wir, wie Komponenten verschiedene Tokens nutzen, indem wir sowohl Token Lens einführen, das aggregierte Aufmerksamkeitsupdates von spezifizierten Tokens decodiert, als auch eine Knockout-Methode, die Änderungen in den MLP-Ausgaben nach dem Entfernen der Aufmerksamkeit auf spezifizierte Tokens analysiert. Insgesamt liefern wir neue Einblicke, wie die internen Komponenten von LMs mit verschiedenen Eingabe-Tokens interagieren, um komplexen Faktenabruf zu unterstützen. Der Code ist verfügbar unter https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.

English

To answer one-to-many factual queries (e.g., listing cities of a country), a language model (LM) must simultaneously recall knowledge and avoid repeating previous answers. How are these two subtasks implemented and integrated internally? Across multiple datasets and models, we identify a promote-then-suppress mechanism: the model first recalls all answers, and then suppresses previously generated ones. Specifically, LMs use both the subject and previous answer tokens to perform knowledge recall, with attention propagating subject information and MLPs promoting the answers. Then, attention attends to and suppresses previous answer tokens, while MLPs amplify the suppression signal. Our mechanism is corroborated by extensive experimental evidence: in addition to using early decoding and causal tracing, we analyze how components use different tokens by introducing both Token Lens, which decodes aggregated attention updates from specified tokens, and a knockout method that analyzes changes in MLP outputs after removing attention to specified tokens. Overall, we provide new insights into how LMs' internal components interact with different input tokens to support complex factual recall. Code is available at https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.

Fördern, Unterdrücken, Iterieren: Wie Sprachmodelle Eins-zu-Viele-Faktenabfragen beantworten

Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries

Zusammenfassung

Summary

Support

Support