Bewertung der Muster-Nützlichkeit für die Datenauswahl durch Nachahmung der Modellgewichte

Zusammenfassung

Grundlagenmodelle stützen sich auf groß angelegte Web-crawl-Datensätze, die häufig rauschende Daten, Voreingenommenheiten und irrelevante Inhalte enthalten. Bestehende Datenauswahltechniken verwenden in der Regel menschliche Heuristiken, nachgelagerte Evaluierungsdatensätze oder spezialisierte Bewertungsmodelle und können die Nützlichkeit von Proben im Schulungsprozess übersehen. Stattdessen schlagen wir einen neuen Ansatz vor, den Mimic Score, ein Datenqualitätsmaß, das ein vorab trainiertes Referenzmodell als Leitfaden verwendet, um die Nützlichkeit von Datenproben für das Training eines neuen Modells zu bewerten. Es stützt sich auf die Ausrichtung zwischen dem Gradienten der neuen Modellparameter und dem Vektor, der im Gewichtsraum auf das Referenzmodell zeigt. Proben, die sich nicht in dieser Richtung ausrichten, gelten als minderwertig und können herausgefiltert werden. Inspiriert vom Mimic Score entwickeln wir Grad-Mimic, ein Datenauswahlsystem, das nützliche Proben identifiziert und priorisiert, den Auswahlprozess automatisiert, um effektive Filter zu erstellen. Empirisch gesehen führt die Verwendung von Mimic Scores zur Steuerung des Modelltrainings zu konsistenten Leistungssteigerungen über sechs Bilddatensätze hinweg und verbessert die Leistung von CLIP-Modellen. Darüber hinaus verbessern Mimic Scores und ihre zugehörigen Filter bestehende Filtermethoden und bieten eine genaue Schätzung der Datensatzqualität.

English

Foundation models rely on large-scale web-crawled datasets, which frequently contain noisy data, biases, and irrelevant content. Existing data selection techniques typically use human heuristics, downstream evaluation datasets, or specialized scoring models, and can overlook samples' utility in the training process. Instead, we propose a new approach, Mimic Score, a data quality metric that uses a pretrained reference model as a guide to assess the usefulness of data samples for training a new model. It relies on the alignment between the gradient of the new model parameters and the vector pointing toward the reference model in weight space. Samples that misalign with this direction are considered low-value and can be filtered out. Motivated by the Mimic score, we develop Grad-Mimic, a data selection framework that identifies and prioritizes useful samples, automating the selection process to create effective filters. Empirically, using Mimic scores to guide model training results in consistent performance gains across six image datasets and enhances the performance of CLIP models. Moreover, Mimic scores and their associated filters improve upon existing filtering methods and offer accurate estimation of dataset quality.

Bewertung der Muster-Nützlichkeit für die Datenauswahl durch Nachahmung der Modellgewichte

Evaluating Sample Utility for Data Selection by Mimicking Model Weights

Zusammenfassung

Support