Emergência de Abstrações: Mecanismo de Codificação e Decodificação de Conceitos para Aprendizado em Contexto em Transformadores
Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers
December 16, 2024
Autores: Seungwook Han, Jinyeop Song, Jeff Gore, Pulkit Agrawal
cs.AI
Resumo
Os humanos destilam experiências complexas em abstrações fundamentais que possibilitam a rápida aprendizagem e adaptação. Da mesma forma, os transformadores autoregressivos exibem aprendizado adaptativo por meio do aprendizado em contexto (ACL), o que levanta a questão de como. Neste artigo, propomos um mecanismo de codificação-decodificação de conceitos para explicar o ACL, estudando como os transformadores formam e utilizam abstrações internas em suas representações. Em tarefas sintéticas de ACL, analisamos a dinâmica de treinamento de um pequeno transformador e relatamos o surgimento acoplado da codificação e decodificação de conceitos. Conforme o modelo aprende a codificar diferentes conceitos latentes (por exemplo, "Encontrar o primeiro substantivo em uma frase.") em representações distintas e separáveis, ele simultaneamente constrói algoritmos de decodificação condicional e melhora seu desempenho em ACL. Validamos a existência desse mecanismo em modelos pré-treinados de escalas variadas (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Além disso, por meio de intervenções mecanísticas e ajustes finos controlados, demonstramos que a qualidade da codificação de conceitos está causalmente relacionada e é preditiva do desempenho em ACL. Nossas percepções empíricas lançam luz sobre uma melhor compreensão dos modos de sucesso e falha de grandes modelos de linguagem por meio de suas representações.
English
Humans distill complex experiences into fundamental abstractions that enable
rapid learning and adaptation. Similarly, autoregressive transformers exhibit
adaptive learning through in-context learning (ICL), which begs the question of
how. In this paper, we propose concept encoding-decoding mechanism to
explain ICL by studying how transformers form and use internal abstractions in
their representations. On synthetic ICL tasks, we analyze the training dynamics
of a small transformer and report the coupled emergence of concept encoding and
decoding. As the model learns to encode different latent concepts (e.g.,
``Finding the first noun in a sentence.") into distinct, separable
representations, it concureently builds conditional decoding algorithms and
improve its ICL performance. We validate the existence of this mechanism across
pretrained models of varying scales (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B).
Further, through mechanistic interventions and controlled finetuning, we
demonstrate that the quality of concept encoding is causally related and
predictive of ICL performance. Our empirical insights shed light into better
understanding the success and failure modes of large language models via their
representations.Summary
AI-Generated Summary