Blanchiment Zipfien
Zipfian Whitening
November 1, 2024
Auteurs: Sho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira
cs.AI
Résumé
L'espace d'incorporation de mots dans les modèles neuronaux est biaisé, et corriger cela peut améliorer les performances des tâches. Nous soulignons que la plupart des approches pour modéliser, corriger et mesurer la symétrie d'un espace d'incorporation supposent implicitement que les fréquences des mots sont uniformes ; en réalité, les fréquences des mots suivent une distribution hautement non uniforme, connue sous le nom de loi de Zipf. De manière surprenante, simplement effectuer un blanchiment PCA pondéré par la fréquence empirique des mots qui suit la loi de Zipf améliore significativement les performances des tâches, dépassant les baselines établies. D'un point de vue théorique, notre approche et les méthodes existantes peuvent être clairement catégorisées : les représentations des mots sont distribuées selon une famille exponentielle avec des mesures de base uniformes ou zipfiennes. En adoptant la dernière approche, nous pouvons naturellement mettre l'accent sur les mots informatifs à faible fréquence en termes de leur norme vectorielle, ce qui devient évident du point de vue information-géométrique, et en termes de fonctions de perte pour la classification déséquilibrée. De plus, notre théorie corrobore que des méthodes populaires de traitement du langage naturel, telles que l'échantillonnage négatif skip-gram, WhiteningBERT et les modèles de langage sans tête, fonctionnent bien simplement parce que leurs incorporations de mots encodent la fréquence empirique des mots dans le modèle probabiliste sous-jacent.
English
The word embedding space in neural models is skewed, and correcting this can
improve task performance. We point out that most approaches for modeling,
correcting, and measuring the symmetry of an embedding space implicitly assume
that the word frequencies are uniform; in reality, word frequencies follow a
highly non-uniform distribution, known as Zipf's law. Surprisingly, simply
performing PCA whitening weighted by the empirical word frequency that follows
Zipf's law significantly improves task performance, surpassing established
baselines. From a theoretical perspective, both our approach and existing
methods can be clearly categorized: word representations are distributed
according to an exponential family with either uniform or Zipfian base
measures. By adopting the latter approach, we can naturally emphasize
informative low-frequency words in terms of their vector norm, which becomes
evident from the information-geometric perspective, and in terms of the loss
functions for imbalanced classification. Additionally, our theory corroborates
that popular natural language processing methods, such as skip-gram negative
sampling, WhiteningBERT, and headless language models, work well just because
their word embeddings encode the empirical word frequency into the underlying
probabilistic model.Summary
AI-Generated Summary