I-Con: Ein einheitliches Framework für Representation Learning
I-Con: A Unifying Framework for Representation Learning
April 23, 2025
Autoren: Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton
cs.AI
Zusammenfassung
Mit dem Wachstum des Feldes der Repräsentationslernens hat es eine Vielzahl unterschiedlicher Verlustfunktionen gegeben, um verschiedene Problemklassen zu lösen. Wir stellen eine einzige informationstheoretische Gleichung vor, die eine große Sammlung moderner Verlustfunktionen im maschinellen Lernen verallgemeinert. Insbesondere führen wir ein Framework ein, das zeigt, dass mehrere breite Klassen von Methoden des maschinellen Lernens genau eine integrierte KL-Divergenz zwischen zwei bedingten Verteilungen minimieren: den überwachten und den gelernten Repräsentationen. Diese Sichtweise legt eine verborgene Informationsgeometrie zugrunde, die Clustering, spektrale Methoden, Dimensionsreduktion, kontrastives Lernen und überwachtes Lernen umfasst. Dieses Framework ermöglicht die Entwicklung neuer Verlustfunktionen durch die Kombination erfolgreicher Techniken aus der Literatur. Wir präsentieren nicht nur eine Vielzahl von Beweisen, die über 23 verschiedene Ansätze verbinden, sondern nutzen diese theoretischen Ergebnisse auch, um state-of-the-art unüberwachte Bildklassifikatoren zu erstellen, die eine Verbesserung von +8 % gegenüber dem bisherigen Stand der Technik bei der unüberwachten Klassifikation auf ImageNet-1K erreichen. Wir zeigen auch, dass I-Con verwendet werden kann, um prinzipielle Debias-Methoden abzuleiten, die kontrastive Repräsentationslerner verbessern.
English
As the field of representation learning grows, there has been a proliferation
of different loss functions to solve different classes of problems. We
introduce a single information-theoretic equation that generalizes a large
collection of modern loss functions in machine learning. In particular, we
introduce a framework that shows that several broad classes of machine learning
methods are precisely minimizing an integrated KL divergence between two
conditional distributions: the supervisory and learned representations. This
viewpoint exposes a hidden information geometry underlying clustering, spectral
methods, dimensionality reduction, contrastive learning, and supervised
learning. This framework enables the development of new loss functions by
combining successful techniques from across the literature. We not only present
a wide array of proofs, connecting over 23 different approaches, but we also
leverage these theoretical results to create state-of-the-art unsupervised
image classifiers that achieve a +8% improvement over the prior
state-of-the-art on unsupervised classification on ImageNet-1K. We also
demonstrate that I-Con can be used to derive principled debiasing methods which
improve contrastive representation learners.Summary
AI-Generated Summary