Haalbaar Leren

Feasible Learning

January 24, 2025
Auteurs: Juan Ramirez, Ignacio Hounie, Juan Elenter, Jose Gallego-Posada, Meraj Hashemizadeh, Alejandro Ribeiro, Simon Lacoste-Julien
cs.AI

Samenvatting

We introduceren Feasible Learning (FL), een op monsters gericht leerperspectief waarbij modellen worden getraind door een haalbaarheidsprobleem op te lossen dat de verlieslimiet voor elk trainingsmonster begrenst. In tegenstelling tot het alomtegenwoordige Empirical Risk Minimization (ERM) kader, dat optimaliseert voor gemiddelde prestaties, eist FL bevredigende prestaties op elk individueel gegevenspunt. Aangezien elk model dat voldoet aan de voorgeschreven prestatiedrempel een geldige FL-oplossing is, spelen de keuze van optimalisatiealgoritme en de dynamiek ervan een cruciale rol bij het vormgeven van de eigenschappen van de resulterende oplossingen. In het bijzonder bestuderen we een primair-dualistische benadering die tijdens de training dynamisch de belangrijkheid van elk monster herweegt. Om de uitdaging van het instellen van een zinvolle drempel in de praktijk aan te pakken, introduceren we een versoepeling van FL die slakvariabelen van minimale norm opneemt. Onze empirische analyse, die zich uitstrekt over beeldclassificatie, leeftijdsregressie en voorkeursoptimalisatie in grote taalmodellen, toont aan dat modellen die via FL zijn getraind kunnen leren van gegevens terwijl ze een verbeterd staartgedrag vertonen in vergelijking met ERM, met slechts een marginaal effect op gemiddelde prestaties.
English
We introduce Feasible Learning (FL), a sample-centric learning paradigm where models are trained by solving a feasibility problem that bounds the loss for each training sample. In contrast to the ubiquitous Empirical Risk Minimization (ERM) framework, which optimizes for average performance, FL demands satisfactory performance on every individual data point. Since any model that meets the prescribed performance threshold is a valid FL solution, the choice of optimization algorithm and its dynamics play a crucial role in shaping the properties of the resulting solutions. In particular, we study a primal-dual approach which dynamically re-weights the importance of each sample during training. To address the challenge of setting a meaningful threshold in practice, we introduce a relaxation of FL that incorporates slack variables of minimal norm. Our empirical analysis, spanning image classification, age regression, and preference optimization in large language models, demonstrates that models trained via FL can learn from data while displaying improved tail behavior compared to ERM, with only a marginal impact on average performance.

Summary

AI-Generated Summary

PDF42January 28, 2025