Sbiancamento Zipfiano
Zipfian Whitening
November 1, 2024
Autori: Sho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira
cs.AI
Abstract
Lo spazio di incorporamento delle parole nei modelli neurali è distorto, e correggere questo aspetto può migliorare le prestazioni delle attività. Sottolineiamo che la maggior parte degli approcci per modellare, correggere e misurare la simmetria di uno spazio di incorporamento assume implicitamente che le frequenze delle parole siano uniformi; in realtà, le frequenze delle parole seguono una distribuzione altamente non uniforme, nota come legge di Zipf. Sorprendentemente, semplicemente eseguendo lo sbiancamento PCA ponderato dalla frequenza empirica delle parole che segue la legge di Zipf migliora significativamente le prestazioni delle attività, superando i baselines consolidati. Da un punto di vista teorico, sia il nostro approccio che i metodi esistenti possono essere chiaramente categorizzati: le rappresentazioni delle parole sono distribuite secondo una famiglia esponenziale con misure di base uniformi o zipfiane. Adottando quest'ultimo approccio, possiamo naturalmente enfatizzare le parole informative a bassa frequenza in termini di norma del vettore, il che diventa evidente dal punto di vista geometrico dell'informazione e in termini di funzioni di perdita per la classificazione sbilanciata. Inoltre, la nostra teoria conferma che i popolari metodi di elaborazione del linguaggio naturale, come il campionamento negativo skip-gram, WhiteningBERT e modelli di linguaggio senza testa, funzionano bene proprio perché i loro incorporamenti delle parole codificano la frequenza empirica delle parole nel modello probabilistico sottostante.
English
The word embedding space in neural models is skewed, and correcting this can
improve task performance. We point out that most approaches for modeling,
correcting, and measuring the symmetry of an embedding space implicitly assume
that the word frequencies are uniform; in reality, word frequencies follow a
highly non-uniform distribution, known as Zipf's law. Surprisingly, simply
performing PCA whitening weighted by the empirical word frequency that follows
Zipf's law significantly improves task performance, surpassing established
baselines. From a theoretical perspective, both our approach and existing
methods can be clearly categorized: word representations are distributed
according to an exponential family with either uniform or Zipfian base
measures. By adopting the latter approach, we can naturally emphasize
informative low-frequency words in terms of their vector norm, which becomes
evident from the information-geometric perspective, and in terms of the loss
functions for imbalanced classification. Additionally, our theory corroborates
that popular natural language processing methods, such as skip-gram negative
sampling, WhiteningBERT, and headless language models, work well just because
their word embeddings encode the empirical word frequency into the underlying
probabilistic model.