Avaliando a Utilidade da Amostra para Seleção de Dados por Imitação dos Pesos do Modelo

Evaluating Sample Utility for Data Selection by Mimicking Model Weights

January 12, 2025
Autores: Tzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan
cs.AI

Resumo

Os modelos fundamentais dependem de conjuntos de dados obtidos em larga escala na web, que frequentemente contêm dados ruidosos, vieses e conteúdo irrelevante. As técnicas existentes de seleção de dados normalmente utilizam heurísticas humanas, conjuntos de dados de avaliação downstream ou modelos de pontuação especializados, e podem negligenciar a utilidade das amostras no processo de treinamento. Em vez disso, propomos uma nova abordagem, o Escore Mimic, uma métrica de qualidade de dados que utiliza um modelo de referência pré-treinado como guia para avaliar a utilidade das amostras de dados para treinar um novo modelo. Ela se baseia no alinhamento entre o gradiente dos novos parâmetros do modelo e o vetor apontando para o modelo de referência no espaço de pesos. As amostras que não se alinham com essa direção são consideradas de baixo valor e podem ser filtradas. Motivados pelo escore Mimic, desenvolvemos o Grad-Mimic, um framework de seleção de dados que identifica e prioriza amostras úteis, automatizando o processo de seleção para criar filtros eficazes. Empiricamente, o uso dos escores Mimic para orientar o treinamento do modelo resulta em ganhos de desempenho consistentes em seis conjuntos de dados de imagens e aprimora o desempenho dos modelos CLIP. Além disso, os escores Mimic e seus filtros associados melhoram os métodos de filtragem existentes e oferecem uma estimativa precisa da qualidade do conjunto de dados.
English
Foundation models rely on large-scale web-crawled datasets, which frequently contain noisy data, biases, and irrelevant content. Existing data selection techniques typically use human heuristics, downstream evaluation datasets, or specialized scoring models, and can overlook samples' utility in the training process. Instead, we propose a new approach, Mimic Score, a data quality metric that uses a pretrained reference model as a guide to assess the usefulness of data samples for training a new model. It relies on the alignment between the gradient of the new model parameters and the vector pointing toward the reference model in weight space. Samples that misalign with this direction are considered low-value and can be filtered out. Motivated by the Mimic score, we develop Grad-Mimic, a data selection framework that identifies and prioritizes useful samples, automating the selection process to create effective filters. Empirically, using Mimic scores to guide model training results in consistent performance gains across six image datasets and enhances the performance of CLIP models. Moreover, Mimic scores and their associated filters improve upon existing filtering methods and offer accurate estimation of dataset quality.

Summary

AI-Generated Summary

PDF52January 14, 2025