I-Con: Een Unificerend Kader voor Representatieleren
I-Con: A Unifying Framework for Representation Learning
April 23, 2025
Auteurs: Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton
cs.AI
Samenvatting
Naarmate het vakgebied van representatieleren groeit, is er een toename van verschillende verliesfuncties om verschillende klassen van problemen op te lossen. Wij introduceren een enkele informatie-theoretische vergelijking die een grote verzameling moderne verliesfuncties in machine learning generaliseert. In het bijzonder introduceren we een raamwerk dat aantoont dat verschillende brede klassen van machine learning-methoden precies een geïntegreerde KL-divergentie tussen twee conditionele verdelingen minimaliseren: de superviserende en geleerde representaties. Dit perspectief onthult een verborgen informatiegeometrie die ten grondslag ligt aan clustering, spectrale methoden, dimensiereductie, contrastief leren en superviserend leren. Dit raamwerk maakt de ontwikkeling van nieuwe verliesfuncties mogelijk door succesvolle technieken uit de literatuur te combineren. We presenteren niet alleen een breed scala aan bewijzen, die meer dan 23 verschillende benaderingen met elkaar verbinden, maar we benutten deze theoretische resultaten ook om state-of-the-art ongeclassificeerde beeldclassificatoren te creëren die een verbetering van +8% bereiken ten opzichte van de vorige state-of-the-art op het gebied van ongeclassificeerde classificatie op ImageNet-1K. We tonen ook aan dat I-Con kan worden gebruikt om principiële debiasing-methoden af te leiden die contrastieve representatieleren verbeteren.
English
As the field of representation learning grows, there has been a proliferation
of different loss functions to solve different classes of problems. We
introduce a single information-theoretic equation that generalizes a large
collection of modern loss functions in machine learning. In particular, we
introduce a framework that shows that several broad classes of machine learning
methods are precisely minimizing an integrated KL divergence between two
conditional distributions: the supervisory and learned representations. This
viewpoint exposes a hidden information geometry underlying clustering, spectral
methods, dimensionality reduction, contrastive learning, and supervised
learning. This framework enables the development of new loss functions by
combining successful techniques from across the literature. We not only present
a wide array of proofs, connecting over 23 different approaches, but we also
leverage these theoretical results to create state-of-the-art unsupervised
image classifiers that achieve a +8% improvement over the prior
state-of-the-art on unsupervised classification on ImageNet-1K. We also
demonstrate that I-Con can be used to derive principled debiasing methods which
improve contrastive representation learners.Summary
AI-Generated Summary