Emergenza delle astrazioni: Meccanismo di codifica e decodifica dei concetti per l'apprendimento in contesto nei Transformers
Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers
December 16, 2024
Autori: Seungwook Han, Jinyeop Song, Jeff Gore, Pulkit Agrawal
cs.AI
Abstract
Gli esseri umani distillano esperienze complesse in astrazioni fondamentali che consentono un apprendimento e un adattamento rapidi. Allo stesso modo, i trasformatori autoregressivi mostrano un apprendimento adattivo attraverso l'apprendimento in contesto (ICL), il che solleva la questione del come. In questo articolo, proponiamo un meccanismo di codifica-decodifica concettuale per spiegare l'ICL studiando come i trasformatori formano e utilizzano astrazioni interne nelle loro rappresentazioni. Su compiti sintetici di ICL, analizziamo la dinamica di addestramento di un piccolo trasformatore e riportiamo l'emergere congiunto della codifica e decodifica dei concetti. Man mano che il modello impara a codificare diversi concetti latenti (ad esempio, "Trovare il primo sostantivo in una frase.") in rappresentazioni distinte e separabili, costruisce contemporaneamente algoritmi di decodifica condizionale e migliora le sue prestazioni di ICL. Confermiamo l'esistenza di questo meccanismo attraverso modelli preaddestrati di varie dimensioni (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Inoltre, attraverso interventi meccanicistici e fine-tuning controllato, dimostriamo che la qualità della codifica concettuale è causalmente correlata e predittiva delle prestazioni di ICL. Le nostre intuizioni empiriche gettano luce su una migliore comprensione delle modalità di successo e di fallimento dei grandi modelli linguistici attraverso le loro rappresentazioni.
English
Humans distill complex experiences into fundamental abstractions that enable
rapid learning and adaptation. Similarly, autoregressive transformers exhibit
adaptive learning through in-context learning (ICL), which begs the question of
how. In this paper, we propose concept encoding-decoding mechanism to
explain ICL by studying how transformers form and use internal abstractions in
their representations. On synthetic ICL tasks, we analyze the training dynamics
of a small transformer and report the coupled emergence of concept encoding and
decoding. As the model learns to encode different latent concepts (e.g.,
``Finding the first noun in a sentence.") into distinct, separable
representations, it concureently builds conditional decoding algorithms and
improve its ICL performance. We validate the existence of this mechanism across
pretrained models of varying scales (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B).
Further, through mechanistic interventions and controlled finetuning, we
demonstrate that the quality of concept encoding is causally related and
predictive of ICL performance. Our empirical insights shed light into better
understanding the success and failure modes of large language models via their
representations.Summary
AI-Generated Summary