지프 분포 백색화

Zipfian Whitening

November 1, 2024
저자: Sho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira
cs.AI

초록

신경 모델의 단어 임베딩 공간은 편향되어 있으며, 이를 보정함으로써 작업 성능을 향상시킬 수 있습니다. 우리는 임베딩 공간의 대칭성을 모델링하고 보정하며 측정하는 대부분의 방법이 단어 빈도가 균일하다고 가정하는 것을 지적합니다. 실제로 단어 빈도는 Zipf의 법칙이라고 알려진 매우 비균일한 분포를 따릅니다. 놀랍게도, Zipf의 법칙을 따르는 경험적인 단어 빈도에 의해 가중 PCA 화이트닝을 수행하는 것만으로도 작업 성능이 크게 향상되어 기존의 벤치마크를 능가합니다. 이론적인 관점에서 우리의 접근 방식과 기존 방법은 명확하게 분류될 수 있습니다. 단어 표현은 균일하거나 Zipf 법칙을 따르는 기저 측도를 갖는 지수 패밀리에 분포됩니다. 후자의 방법을 채택함으로써 낮은 빈도의 정보가 풍부한 단어를 벡터 노름을 통해 강조할 수 있으며, 정보 기하학적 관점과 불균형 분류를 위한 손실 함수에서 명확해집니다. 게다가, 우리의 이론은 skip-gram 부정 샘플링, WhiteningBERT 및 머리 없는 언어 모델과 같은 인기 있는 자연어 처리 방법이 잘 작동하는 이유는 그들의 단어 임베딩이 기저 확률 모델에 경험적인 단어 빈도를 인코딩하기 때문임을 입증합니다.
English
The word embedding space in neural models is skewed, and correcting this can improve task performance. We point out that most approaches for modeling, correcting, and measuring the symmetry of an embedding space implicitly assume that the word frequencies are uniform; in reality, word frequencies follow a highly non-uniform distribution, known as Zipf's law. Surprisingly, simply performing PCA whitening weighted by the empirical word frequency that follows Zipf's law significantly improves task performance, surpassing established baselines. From a theoretical perspective, both our approach and existing methods can be clearly categorized: word representations are distributed according to an exponential family with either uniform or Zipfian base measures. By adopting the latter approach, we can naturally emphasize informative low-frequency words in terms of their vector norm, which becomes evident from the information-geometric perspective, and in terms of the loss functions for imbalanced classification. Additionally, our theory corroborates that popular natural language processing methods, such as skip-gram negative sampling, WhiteningBERT, and headless language models, work well just because their word embeddings encode the empirical word frequency into the underlying probabilistic model.

Summary

AI-Generated Summary

PDF92November 13, 2024