Emergenza delle astrazioni: Meccanismo di codifica e decodifica dei concetti per l'apprendimento in contesto nei Transformers

Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers

December 16, 2024
Autori: Seungwook Han, Jinyeop Song, Jeff Gore, Pulkit Agrawal
cs.AI

Abstract

Gli esseri umani distillano esperienze complesse in astrazioni fondamentali che consentono un apprendimento e un adattamento rapidi. Allo stesso modo, i trasformatori autoregressivi mostrano un apprendimento adattivo attraverso l'apprendimento in contesto (ICL), il che solleva la questione del come. In questo articolo, proponiamo un meccanismo di codifica-decodifica concettuale per spiegare l'ICL studiando come i trasformatori formano e utilizzano astrazioni interne nelle loro rappresentazioni. Su compiti sintetici di ICL, analizziamo la dinamica di addestramento di un piccolo trasformatore e riportiamo l'emergere congiunto della codifica e decodifica dei concetti. Man mano che il modello impara a codificare diversi concetti latenti (ad esempio, "Trovare il primo sostantivo in una frase.") in rappresentazioni distinte e separabili, costruisce contemporaneamente algoritmi di decodifica condizionale e migliora le sue prestazioni di ICL. Confermiamo l'esistenza di questo meccanismo attraverso modelli preaddestrati di varie dimensioni (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Inoltre, attraverso interventi meccanicistici e fine-tuning controllato, dimostriamo che la qualità della codifica concettuale è causalmente correlata e predittiva delle prestazioni di ICL. Le nostre intuizioni empiriche gettano luce su una migliore comprensione delle modalità di successo e di fallimento dei grandi modelli linguistici attraverso le loro rappresentazioni.
English
Humans distill complex experiences into fundamental abstractions that enable rapid learning and adaptation. Similarly, autoregressive transformers exhibit adaptive learning through in-context learning (ICL), which begs the question of how. In this paper, we propose concept encoding-decoding mechanism to explain ICL by studying how transformers form and use internal abstractions in their representations. On synthetic ICL tasks, we analyze the training dynamics of a small transformer and report the coupled emergence of concept encoding and decoding. As the model learns to encode different latent concepts (e.g., ``Finding the first noun in a sentence.") into distinct, separable representations, it concureently builds conditional decoding algorithms and improve its ICL performance. We validate the existence of this mechanism across pretrained models of varying scales (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Further, through mechanistic interventions and controlled finetuning, we demonstrate that the quality of concept encoding is causally related and predictive of ICL performance. Our empirical insights shed light into better understanding the success and failure modes of large language models via their representations.

Summary

AI-Generated Summary

PDF152December 18, 2024