Emergência de Abstrações: Mecanismo de Codificação e Decodificação de Conceitos para Aprendizado em Contexto em Transformadores

Resumo

Os humanos destilam experiências complexas em abstrações fundamentais que possibilitam a rápida aprendizagem e adaptação. Da mesma forma, os transformadores autoregressivos exibem aprendizado adaptativo por meio do aprendizado em contexto (ACL), o que levanta a questão de como. Neste artigo, propomos um mecanismo de codificação-decodificação de conceitos para explicar o ACL, estudando como os transformadores formam e utilizam abstrações internas em suas representações. Em tarefas sintéticas de ACL, analisamos a dinâmica de treinamento de um pequeno transformador e relatamos o surgimento acoplado da codificação e decodificação de conceitos. Conforme o modelo aprende a codificar diferentes conceitos latentes (por exemplo, "Encontrar o primeiro substantivo em uma frase.") em representações distintas e separáveis, ele simultaneamente constrói algoritmos de decodificação condicional e melhora seu desempenho em ACL. Validamos a existência desse mecanismo em modelos pré-treinados de escalas variadas (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Além disso, por meio de intervenções mecanísticas e ajustes finos controlados, demonstramos que a qualidade da codificação de conceitos está causalmente relacionada e é preditiva do desempenho em ACL. Nossas percepções empíricas lançam luz sobre uma melhor compreensão dos modos de sucesso e falha de grandes modelos de linguagem por meio de suas representações.

English

Humans distill complex experiences into fundamental abstractions that enable rapid learning and adaptation. Similarly, autoregressive transformers exhibit adaptive learning through in-context learning (ICL), which begs the question of how. In this paper, we propose concept encoding-decoding mechanism to explain ICL by studying how transformers form and use internal abstractions in their representations. On synthetic ICL tasks, we analyze the training dynamics of a small transformer and report the coupled emergence of concept encoding and decoding. As the model learns to encode different latent concepts (e.g., ``Finding the first noun in a sentence.") into distinct, separable representations, it concureently builds conditional decoding algorithms and improve its ICL performance. We validate the existence of this mechanism across pretrained models of varying scales (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Further, through mechanistic interventions and controlled finetuning, we demonstrate that the quality of concept encoding is causally related and predictive of ICL performance. Our empirical insights shed light into better understanding the success and failure modes of large language models via their representations.

Emergência de Abstrações: Mecanismo de Codificação e Decodificação de Conceitos para Aprendizado em Contexto em Transformadores

Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers

Resumo

Support