ChatPaper.aiChatPaper

QuaDMix : Sélection de Données Équilibrée entre Qualité et Diversité pour un Prétraitement Efficace des Modèles de Langage de Grande Taille

QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining

April 23, 2025
Auteurs: Fengze Liu, Weidong Zhou, Binbin Liu, Zhimiao Yu, Yifan Zhang, Haobin Lin, Yifeng Yu, Xiaohuan Zhou, Taifeng Wang, Yong Cao
cs.AI

Résumé

La qualité et la diversité sont deux métriques cruciales pour les données d'entraînement des grands modèles de langage (LLM), ayant un impact positif sur leurs performances. Les études existantes optimisent souvent ces métriques séparément, généralement en appliquant d'abord un filtrage de qualité puis en ajustant les proportions des données. Cependant, ces approches négligent le compromis inhérent entre qualité et diversité, nécessitant leur prise en compte conjointe. Étant donné un quota d'entraînement fixe, il est essentiel d'évaluer à la fois la qualité de chaque point de données et son effet complémentaire sur l'ensemble du jeu de données. Dans cet article, nous introduisons un cadre unifié de sélection de données appelé QuaDMix, qui optimise automatiquement la distribution des données pour le pré-entraînement des LLM tout en équilibrant qualité et diversité. Plus précisément, nous proposons d'abord plusieurs critères pour mesurer la qualité des données et utilisons une classification par domaine pour distinguer les points de données, mesurant ainsi la diversité globale. QuaDMix emploie ensuite une fonction de paramétrage unifiée qui détermine la probabilité d'échantillonnage de chaque point de données en fonction de ces étiquettes liées à la qualité et à la diversité. Pour accélérer la recherche des paramètres optimaux impliqués dans le cadre QuaDMix, nous menons des expériences simulées sur des modèles plus petits et utilisons LightGBM pour la recherche de paramètres, inspirés par la méthode RegMix. Nos expériences sur divers modèles et jeux de données démontrent que QuaDMix améliore en moyenne les performances de 7,2 % sur plusieurs benchmarks. Ces résultats surpassent les stratégies indépendantes pour la qualité et la diversité, soulignant la nécessité et la capacité à équilibrer qualité et diversité des données.
English
Quality and diversity are two critical metrics for the training data of large language models (LLMs), positively impacting performance. Existing studies often optimize these metrics separately, typically by first applying quality filtering and then adjusting data proportions. However, these approaches overlook the inherent trade-off between quality and diversity, necessitating their joint consideration. Given a fixed training quota, it is essential to evaluate both the quality of each data point and its complementary effect on the overall dataset. In this paper, we introduce a unified data selection framework called QuaDMix, which automatically optimizes the data distribution for LLM pretraining while balancing both quality and diversity. Specifically, we first propose multiple criteria to measure data quality and employ domain classification to distinguish data points, thereby measuring overall diversity. QuaDMix then employs a unified parameterized data sampling function that determines the sampling probability of each data point based on these quality and diversity related labels. To accelerate the search for the optimal parameters involved in the QuaDMix framework, we conduct simulated experiments on smaller models and use LightGBM for parameters searching, inspired by the RegMix method. Our experiments across diverse models and datasets demonstrate that QuaDMix achieves an average performance improvement of 7.2% across multiple benchmarks. These results outperform the independent strategies for quality and diversity, highlighting the necessity and ability to balance data quality and diversity.

Summary

AI-Generated Summary

PDF202April 25, 2025