Valutazione dell'utilità del campione per la selezione dei dati imitando i pesi del modello
Evaluating Sample Utility for Data Selection by Mimicking Model Weights
January 12, 2025
Autori: Tzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan
cs.AI
Abstract
I modelli fondamentali si basano su dataset di larga scala raccolti dal web, che spesso contengono dati rumorosi, bias e contenuti non pertinenti. Le tecniche esistenti di selezione dei dati di solito utilizzano euristiche umane, dataset di valutazione successiva o modelli di punteggio specializzati e possono trascurare l'utilità dei campioni nel processo di addestramento. Invece, proponiamo un nuovo approccio, il Punteggio Mimic, una metrica di qualità dei dati che utilizza un modello di riferimento preaddestrato come guida per valutare l'utilità dei campioni di dati per l'addestramento di un nuovo modello. Si basa sull'allineamento tra il gradiente dei nuovi parametri del modello e il vettore che punta verso il modello di riferimento nello spazio dei pesi. I campioni che non si allineano con questa direzione sono considerati di scarso valore e possono essere filtrati. Motivati dal punteggio Mimic, sviluppiamo Grad-Mimic, un framework di selezione dei dati che identifica e priorita i campioni utili, automatizzando il processo di selezione per creare filtri efficaci. Empiricamente, l'utilizzo dei punteggi Mimic per guidare l'addestramento del modello porta a consistenti miglioramenti delle prestazioni su sei dataset di immagini e potenzia le prestazioni dei modelli CLIP. Inoltre, i punteggi Mimic e i relativi filtri migliorano i metodi di filtraggio esistenti e offrono una stima accurata della qualità del dataset.
English
Foundation models rely on large-scale web-crawled datasets, which frequently
contain noisy data, biases, and irrelevant content. Existing data selection
techniques typically use human heuristics, downstream evaluation datasets, or
specialized scoring models, and can overlook samples' utility in the training
process. Instead, we propose a new approach, Mimic Score, a data quality metric
that uses a pretrained reference model as a guide to assess the usefulness of
data samples for training a new model. It relies on the alignment between the
gradient of the new model parameters and the vector pointing toward the
reference model in weight space. Samples that misalign with this direction are
considered low-value and can be filtered out. Motivated by the Mimic score, we
develop Grad-Mimic, a data selection framework that identifies and prioritizes
useful samples, automating the selection process to create effective filters.
Empirically, using Mimic scores to guide model training results in consistent
performance gains across six image datasets and enhances the performance of
CLIP models. Moreover, Mimic scores and their associated filters improve upon
existing filtering methods and offer accurate estimation of dataset quality.Summary
AI-Generated Summary