QuaDMix: Kwaliteit-Diversiteit Gebalanceerde Dataselectie voor Efficiënte LLM Pretraining
QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining
April 23, 2025
Auteurs: Fengze Liu, Weidong Zhou, Binbin Liu, Zhimiao Yu, Yifan Zhang, Haobin Lin, Yifeng Yu, Xiaohuan Zhou, Taifeng Wang, Yong Cao
cs.AI
Samenvatting
Kwaliteit en diversiteit zijn twee cruciale metrieken voor de trainingsdata van grote taalmmodellen (LLM's), die een positieve invloed hebben op de prestaties. Bestaande studies optimaliseren deze metrieken vaak afzonderlijk, meestal door eerst kwaliteitsfiltering toe te passen en vervolgens de dataverhoudingen aan te passen. Deze benaderingen negeren echter de inherente afweging tussen kwaliteit en diversiteit, wat een gezamenlijke overweging noodzakelijk maakt. Gegeven een vaste trainingsquota is het essentieel om zowel de kwaliteit van elk datapunt als het complementaire effect ervan op de gehele dataset te evalueren. In dit artikel introduceren we een uniform data-selectiekader genaamd QuaDMix, dat automatisch de dataverdeling optimaliseert voor LLM-pretraining terwijl het zowel kwaliteit als diversiteit in balans houdt. Specifiek stellen we eerst meerdere criteria voor om data-kwaliteit te meten en gebruiken we domeinclassificatie om datapunten te onderscheiden, waardoor de algehele diversiteit wordt gemeten. QuaDMix gebruikt vervolgens een uniforme geparametriseerde data-steekproeffunctie die de steekproefkans van elk datapunt bepaalt op basis van deze kwaliteits- en diversiteitsgerelateerde labels. Om de zoektocht naar de optimale parameters binnen het QuaDMix-kader te versnellen, voeren we gesimuleerde experimenten uit op kleinere modellen en gebruiken we LightGBM voor het zoeken naar parameters, geïnspireerd door de RegMix-methode. Onze experimenten met diverse modellen en datasets tonen aan dat QuaDMix een gemiddelde prestatieverbetering van 7,2% bereikt over meerdere benchmarks. Deze resultaten overtreffen de onafhankelijke strategieën voor kwaliteit en diversiteit, wat de noodzaak en het vermogen benadrukt om data-kwaliteit en diversiteit in balans te brengen.
English
Quality and diversity are two critical metrics for the training data of large
language models (LLMs), positively impacting performance. Existing studies
often optimize these metrics separately, typically by first applying quality
filtering and then adjusting data proportions. However, these approaches
overlook the inherent trade-off between quality and diversity, necessitating
their joint consideration. Given a fixed training quota, it is essential to
evaluate both the quality of each data point and its complementary effect on
the overall dataset. In this paper, we introduce a unified data selection
framework called QuaDMix, which automatically optimizes the data distribution
for LLM pretraining while balancing both quality and diversity. Specifically,
we first propose multiple criteria to measure data quality and employ domain
classification to distinguish data points, thereby measuring overall diversity.
QuaDMix then employs a unified parameterized data sampling function that
determines the sampling probability of each data point based on these quality
and diversity related labels. To accelerate the search for the optimal
parameters involved in the QuaDMix framework, we conduct simulated experiments
on smaller models and use LightGBM for parameters searching, inspired by the
RegMix method. Our experiments across diverse models and datasets demonstrate
that QuaDMix achieves an average performance improvement of 7.2% across
multiple benchmarks. These results outperform the independent strategies for
quality and diversity, highlighting the necessity and ability to balance data
quality and diversity.Summary
AI-Generated Summary