Zipfian-Entfärbung

Zipfian Whitening

November 1, 2024
Autoren: Sho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira
cs.AI

Zusammenfassung

Der Wort-Einbettungsraum in neuronalen Modellen ist verzerrt, und das Korrigieren davon kann die Leistung der Aufgabe verbessern. Wir weisen darauf hin, dass die meisten Ansätze zur Modellierung, Korrektur und Messung der Symmetrie eines Einbettungsraums implizit davon ausgehen, dass die Wortfrequenzen gleichmäßig sind; in Wirklichkeit folgen Wortfrequenzen einer stark ungleichmäßigen Verteilung, bekannt als Zipfsches Gesetz. Überraschenderweise verbessert allein die Durchführung einer PCA-Weißmachung, gewichtet nach der empirischen Wortfrequenz, die Zipfsches Gesetz folgt, signifikant die Leistung der Aufgabe und übertrifft etablierte Baselines. Aus theoretischer Sicht können sowohl unser Ansatz als auch bestehende Methoden klar kategorisiert werden: Wortrepräsentationen sind gemäß einer exponentiellen Familie mit entweder gleichmäßigen oder Zipfschen Basismaßen verteilt. Durch die Annahme des letzteren Ansatzes können wir natürlicherweise informative Niedrigfrequenzwörter hervorheben, sowohl in Bezug auf ihre Vektornorm, was aus der information-geometrischen Perspektive deutlich wird, als auch in Bezug auf die Verlustfunktionen für unausgeglichene Klassifikationen. Darüber hinaus bestätigt unsere Theorie, dass beliebte Methoden der natürlichen Sprachverarbeitung, wie Skip-Gram-Negative-Sampling, WhiteningBERT und kopflose Sprachmodelle, gut funktionieren, nur weil ihre Wort-Einbettungen die empirische Wortfrequenz in das zugrunde liegende probabilistische Modell kodieren.
English
The word embedding space in neural models is skewed, and correcting this can improve task performance. We point out that most approaches for modeling, correcting, and measuring the symmetry of an embedding space implicitly assume that the word frequencies are uniform; in reality, word frequencies follow a highly non-uniform distribution, known as Zipf's law. Surprisingly, simply performing PCA whitening weighted by the empirical word frequency that follows Zipf's law significantly improves task performance, surpassing established baselines. From a theoretical perspective, both our approach and existing methods can be clearly categorized: word representations are distributed according to an exponential family with either uniform or Zipfian base measures. By adopting the latter approach, we can naturally emphasize informative low-frequency words in terms of their vector norm, which becomes evident from the information-geometric perspective, and in terms of the loss functions for imbalanced classification. Additionally, our theory corroborates that popular natural language processing methods, such as skip-gram negative sampling, WhiteningBERT, and headless language models, work well just because their word embeddings encode the empirical word frequency into the underlying probabilistic model.

Summary

AI-Generated Summary

PDF92November 13, 2024