Compreensão e Mitigação de Gargalos de Modelos de Espaço de Estados através da Perspectiva de Atualidade e Super-suavização
Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing
December 31, 2024
Autores: Peihao Wang, Ruisi Cai, Yuehao Wang, Jiajun Zhu, Pragya Srivastava, Zhangyang Wang, Pan Li
cs.AI
Resumo
Os Modelos Estruturados de Espaço de Estados (SSMs) surgiram como alternativas aos transformadores. Embora os SSMs sejam frequentemente considerados eficazes na captura de dependências de sequências longas, demonstramos rigorosamente que eles são inerentemente limitados por um forte viés de recenticidade. Nossos estudos empíricos também revelam que esse viés prejudica a capacidade dos modelos de lembrar informações distantes e introduz problemas de robustez. Nossos experimentos de escalonamento descobriram que estruturas mais profundas nos SSMs podem facilitar a aprendizagem de contextos longos. No entanto, análises teóricas subsequentes revelam que, à medida que os SSMs aumentam em profundidade, eles apresentam outra tendência inevitável em direção ao excesso de suavização, por exemplo, as representações de tokens se tornando cada vez mais indistinguíveis. Esse dilema fundamental entre recenticidade e excesso de suavização dificulta a escalabilidade dos SSMs existentes. Inspirados em nossas descobertas teóricas, propomos polarizar dois canais das matrizes de transição de estados nos SSMs, definindo-os como zero e um, respectivamente, abordando simultaneamente o viés de recenticidade e o excesso de suavização. Experimentos demonstram que nossa técnica de polarização consistentemente melhora a precisão de recordação associativa de tokens de longo alcance e permite que os SSMs se beneficiem ainda mais de arquiteturas mais profundas. Todos os códigos-fonte estão disponíveis em https://github.com/VITA-Group/SSM-Bottleneck.
English
Structured State Space Models (SSMs) have emerged as alternatives to
transformers. While SSMs are often regarded as effective in capturing
long-sequence dependencies, we rigorously demonstrate that they are inherently
limited by strong recency bias. Our empirical studies also reveal that this
bias impairs the models' ability to recall distant information and introduces
robustness issues. Our scaling experiments then discovered that deeper
structures in SSMs can facilitate the learning of long contexts. However,
subsequent theoretical analysis reveals that as SSMs increase in depth, they
exhibit another inevitable tendency toward over-smoothing, e.g., token
representations becoming increasingly indistinguishable. This fundamental
dilemma between recency and over-smoothing hinders the scalability of existing
SSMs. Inspired by our theoretical findings, we propose to polarize two channels
of the state transition matrices in SSMs, setting them to zero and one,
respectively, simultaneously addressing recency bias and over-smoothing.
Experiments demonstrate that our polarization technique consistently enhances
the associative recall accuracy of long-range tokens and unlocks SSMs to
benefit further from deeper architectures. All source codes are released at
https://github.com/VITA-Group/SSM-Bottleneck.Summary
AI-Generated Summary