Zipfiaanse whitening.
Zipfian Whitening
November 1, 2024
Auteurs: Sho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira
cs.AI
Samenvatting
De ruimte van woordembedding in neurale modellen is scheef en het corrigeren hiervan kan de prestaties van taken verbeteren. We wijzen erop dat de meeste benaderingen voor het modelleren, corrigeren en meten van de symmetrie van een embeddingruimte impliciet aannemen dat de woordfrequenties uniform zijn; in werkelijkheid volgen woordfrequenties een sterk niet-uniforme verdeling, bekend als de wet van Zipf. Verrassend genoeg verbetert eenvoudigweg het uitvoeren van PCA-whitening gewogen door de empirische woordfrequentie die de wet van Zipf volgt aanzienlijk de prestaties van taken, waarbij gevestigde baselines worden overtroffen. Vanuit een theoretisch perspectief kunnen zowel onze benadering als bestaande methoden duidelijk worden gecategoriseerd: woordrepresentaties zijn verdeeld volgens een exponentiële familie met ofwel uniforme of Zipfiaanse basismaten. Door de laatstgenoemde benadering te adopteren, kunnen we op natuurlijke wijze informatieve woorden met een lage frequentie benadrukken wat betreft hun vectornorm, wat duidelijk wordt vanuit het informatiegeometrische perspectief, en wat betreft de verliesfuncties voor onevenwichtige classificatie. Bovendien bevestigt onze theorie dat populaire methoden voor natuurlijke taalverwerking, zoals skip-gram negatieve bemonstering, WhiteningBERT en hoofdloze taalmodellen, goed werken alleen omdat hun woordembedding de empirische woordfrequentie codeert in het onderliggende probabilistische model.
English
The word embedding space in neural models is skewed, and correcting this can
improve task performance. We point out that most approaches for modeling,
correcting, and measuring the symmetry of an embedding space implicitly assume
that the word frequencies are uniform; in reality, word frequencies follow a
highly non-uniform distribution, known as Zipf's law. Surprisingly, simply
performing PCA whitening weighted by the empirical word frequency that follows
Zipf's law significantly improves task performance, surpassing established
baselines. From a theoretical perspective, both our approach and existing
methods can be clearly categorized: word representations are distributed
according to an exponential family with either uniform or Zipfian base
measures. By adopting the latter approach, we can naturally emphasize
informative low-frequency words in terms of their vector norm, which becomes
evident from the information-geometric perspective, and in terms of the loss
functions for imbalanced classification. Additionally, our theory corroborates
that popular natural language processing methods, such as skip-gram negative
sampling, WhiteningBERT, and headless language models, work well just because
their word embeddings encode the empirical word frequency into the underlying
probabilistic model.Summary
AI-Generated Summary