Bewertung der Muster-Nützlichkeit für die Datenauswahl durch Nachahmung der Modellgewichte
Evaluating Sample Utility for Data Selection by Mimicking Model Weights
January 12, 2025
Autoren: Tzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan
cs.AI
Zusammenfassung
Grundlagenmodelle stützen sich auf groß angelegte Web-crawl-Datensätze, die häufig rauschende Daten, Voreingenommenheiten und irrelevante Inhalte enthalten. Bestehende Datenauswahltechniken verwenden in der Regel menschliche Heuristiken, nachgelagerte Evaluierungsdatensätze oder spezialisierte Bewertungsmodelle und können die Nützlichkeit von Proben im Schulungsprozess übersehen. Stattdessen schlagen wir einen neuen Ansatz vor, den Mimic Score, ein Datenqualitätsmaß, das ein vorab trainiertes Referenzmodell als Leitfaden verwendet, um die Nützlichkeit von Datenproben für das Training eines neuen Modells zu bewerten. Es stützt sich auf die Ausrichtung zwischen dem Gradienten der neuen Modellparameter und dem Vektor, der im Gewichtsraum auf das Referenzmodell zeigt. Proben, die sich nicht in dieser Richtung ausrichten, gelten als minderwertig und können herausgefiltert werden. Inspiriert vom Mimic Score entwickeln wir Grad-Mimic, ein Datenauswahlsystem, das nützliche Proben identifiziert und priorisiert, den Auswahlprozess automatisiert, um effektive Filter zu erstellen. Empirisch gesehen führt die Verwendung von Mimic Scores zur Steuerung des Modelltrainings zu konsistenten Leistungssteigerungen über sechs Bilddatensätze hinweg und verbessert die Leistung von CLIP-Modellen. Darüber hinaus verbessern Mimic Scores und ihre zugehörigen Filter bestehende Filtermethoden und bieten eine genaue Schätzung der Datensatzqualität.
English
Foundation models rely on large-scale web-crawled datasets, which frequently
contain noisy data, biases, and irrelevant content. Existing data selection
techniques typically use human heuristics, downstream evaluation datasets, or
specialized scoring models, and can overlook samples' utility in the training
process. Instead, we propose a new approach, Mimic Score, a data quality metric
that uses a pretrained reference model as a guide to assess the usefulness of
data samples for training a new model. It relies on the alignment between the
gradient of the new model parameters and the vector pointing toward the
reference model in weight space. Samples that misalign with this direction are
considered low-value and can be filtered out. Motivated by the Mimic score, we
develop Grad-Mimic, a data selection framework that identifies and prioritizes
useful samples, automating the selection process to create effective filters.
Empirically, using Mimic scores to guide model training results in consistent
performance gains across six image datasets and enhances the performance of
CLIP models. Moreover, Mimic scores and their associated filters improve upon
existing filtering methods and offer accurate estimation of dataset quality.Summary
AI-Generated Summary