Machbares Lernen
Feasible Learning
January 24, 2025
Autoren: Juan Ramirez, Ignacio Hounie, Juan Elenter, Jose Gallego-Posada, Meraj Hashemizadeh, Alejandro Ribeiro, Simon Lacoste-Julien
cs.AI
Zusammenfassung
Wir stellen das Konzept des Durchführbaren Lernens (Feasible Learning, FL) vor, ein probenzentrierter Lernparadigma, bei dem Modelle trainiert werden, indem ein Machbarkeitsproblem gelöst wird, das den Verlust für jede Trainingsprobe begrenzt. Im Gegensatz zum allgegenwärtigen Rahmen des Empirischen Risikominimierung (Empirical Risk Minimization, ERM), der auf durchschnittliche Leistung optimiert, verlangt FL eine zufriedenstellende Leistung für jeden einzelnen Datenpunkt. Da jedes Modell, das den vorgeschriebenen Leistungsstandard erfüllt, eine gültige FL-Lösung ist, spielt die Wahl des Optimierungsalgorithmus und seine Dynamik eine entscheidende Rolle bei der Gestaltung der Eigenschaften der resultierenden Lösungen. Insbesondere untersuchen wir einen primal-dualen Ansatz, der während des Trainings dynamisch die Bedeutung jeder Probe neu gewichtet. Um die Herausforderung der Festlegung eines sinnvollen Schwellenwerts in der Praxis zu bewältigen, führen wir eine Relaxation von FL ein, die Schlupfvariablen minimaler Norm einbezieht. Unsere empirische Analyse, die Bildklassifizierung, Altersregression und Präferenzoptimierung in großen Sprachmodellen umfasst, zeigt, dass Modelle, die über FL trainiert wurden, aus Daten lernen können, während sie im Vergleich zu ERM ein verbessertes Schwanzverhalten aufweisen, bei nur einem geringfügigen Einfluss auf die durchschnittliche Leistung.
English
We introduce Feasible Learning (FL), a sample-centric learning paradigm where
models are trained by solving a feasibility problem that bounds the loss for
each training sample. In contrast to the ubiquitous Empirical Risk Minimization
(ERM) framework, which optimizes for average performance, FL demands
satisfactory performance on every individual data point. Since any model that
meets the prescribed performance threshold is a valid FL solution, the choice
of optimization algorithm and its dynamics play a crucial role in shaping the
properties of the resulting solutions. In particular, we study a primal-dual
approach which dynamically re-weights the importance of each sample during
training. To address the challenge of setting a meaningful threshold in
practice, we introduce a relaxation of FL that incorporates slack variables of
minimal norm. Our empirical analysis, spanning image classification, age
regression, and preference optimization in large language models, demonstrates
that models trained via FL can learn from data while displaying improved tail
behavior compared to ERM, with only a marginal impact on average performance.Summary
AI-Generated Summary