ChatPaper.aiChatPaper

I-Con: Ein einheitliches Framework für Representation Learning

I-Con: A Unifying Framework for Representation Learning

April 23, 2025
Autoren: Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton
cs.AI

Zusammenfassung

Mit dem Wachstum des Feldes der Repräsentationslernens hat es eine Vielzahl unterschiedlicher Verlustfunktionen gegeben, um verschiedene Problemklassen zu lösen. Wir stellen eine einzige informationstheoretische Gleichung vor, die eine große Sammlung moderner Verlustfunktionen im maschinellen Lernen verallgemeinert. Insbesondere führen wir ein Framework ein, das zeigt, dass mehrere breite Klassen von Methoden des maschinellen Lernens genau eine integrierte KL-Divergenz zwischen zwei bedingten Verteilungen minimieren: den überwachten und den gelernten Repräsentationen. Diese Sichtweise legt eine verborgene Informationsgeometrie zugrunde, die Clustering, spektrale Methoden, Dimensionsreduktion, kontrastives Lernen und überwachtes Lernen umfasst. Dieses Framework ermöglicht die Entwicklung neuer Verlustfunktionen durch die Kombination erfolgreicher Techniken aus der Literatur. Wir präsentieren nicht nur eine Vielzahl von Beweisen, die über 23 verschiedene Ansätze verbinden, sondern nutzen diese theoretischen Ergebnisse auch, um state-of-the-art unüberwachte Bildklassifikatoren zu erstellen, die eine Verbesserung von +8 % gegenüber dem bisherigen Stand der Technik bei der unüberwachten Klassifikation auf ImageNet-1K erreichen. Wir zeigen auch, dass I-Con verwendet werden kann, um prinzipielle Debias-Methoden abzuleiten, die kontrastive Repräsentationslerner verbessern.
English
As the field of representation learning grows, there has been a proliferation of different loss functions to solve different classes of problems. We introduce a single information-theoretic equation that generalizes a large collection of modern loss functions in machine learning. In particular, we introduce a framework that shows that several broad classes of machine learning methods are precisely minimizing an integrated KL divergence between two conditional distributions: the supervisory and learned representations. This viewpoint exposes a hidden information geometry underlying clustering, spectral methods, dimensionality reduction, contrastive learning, and supervised learning. This framework enables the development of new loss functions by combining successful techniques from across the literature. We not only present a wide array of proofs, connecting over 23 different approaches, but we also leverage these theoretical results to create state-of-the-art unsupervised image classifiers that achieve a +8% improvement over the prior state-of-the-art on unsupervised classification on ImageNet-1K. We also demonstrate that I-Con can be used to derive principled debiasing methods which improve contrastive representation learners.

Summary

AI-Generated Summary

PDF282April 24, 2025