QuaDMix: Qualitäts-Diversität-ausgewählte Datenauswahl für effizientes LLM-Pretraining
QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining
April 23, 2025
Autoren: Fengze Liu, Weidong Zhou, Binbin Liu, Zhimiao Yu, Yifan Zhang, Haobin Lin, Yifeng Yu, Xiaohuan Zhou, Taifeng Wang, Yong Cao
cs.AI
Zusammenfassung
Qualität und Diversität sind zwei entscheidende Metriken für die Trainingsdaten von großen Sprachmodellen (LLMs), die sich positiv auf die Leistung auswirken. Bestehende Studien optimieren diese Metriken oft separat, typischerweise durch eine zunächst angewandte Qualitätsfilterung und anschließende Anpassung der Datenanteile. Diese Ansätze übersehen jedoch den inhärenten Zielkonflikt zwischen Qualität und Diversität, was eine gemeinsame Betrachtung erforderlich macht. Bei einem festen Trainingskontingent ist es essenziell, sowohl die Qualität jedes Datenpunkts als auch dessen komplementären Effekt auf den Gesamtdatensatz zu bewerten. In diesem Artikel stellen wir ein einheitliches Datenauswahlframework namens QuaDMix vor, das die Datenverteilung für das Pretraining von LLMs automatisch optimiert und dabei sowohl Qualität als auch Diversität ausbalanciert. Konkret schlagen wir zunächst mehrere Kriterien zur Messung der Datenqualität vor und verwenden Domänenklassifikation, um Datenpunkte zu unterscheiden und so die Gesamtdiversität zu messen. QuaDMix nutzt dann eine einheitliche parametrisierte Datenstichprobenfunktion, die die Stichprobenwahrscheinlichkeit jedes Datenpunkts basierend auf diesen Qualitäts- und Diversitätskennzeichnungen bestimmt. Um die Suche nach den optimalen Parametern im QuaDMix-Framework zu beschleunigen, führen wir Simulationsexperimente an kleineren Modellen durch und verwenden LightGBM für die Parametersuche, inspiriert durch die RegMix-Methode. Unsere Experimente über verschiedene Modelle und Datensätze hinweg zeigen, dass QuaDMix eine durchschnittliche Leistungssteigerung von 7,2 % über mehrere Benchmarks hinweg erzielt. Diese Ergebnisse übertreffen die unabhängigen Strategien für Qualität und Diversität und unterstreichen die Notwendigkeit und Fähigkeit, Datenqualität und Diversität auszubalancieren.
English
Quality and diversity are two critical metrics for the training data of large
language models (LLMs), positively impacting performance. Existing studies
often optimize these metrics separately, typically by first applying quality
filtering and then adjusting data proportions. However, these approaches
overlook the inherent trade-off between quality and diversity, necessitating
their joint consideration. Given a fixed training quota, it is essential to
evaluate both the quality of each data point and its complementary effect on
the overall dataset. In this paper, we introduce a unified data selection
framework called QuaDMix, which automatically optimizes the data distribution
for LLM pretraining while balancing both quality and diversity. Specifically,
we first propose multiple criteria to measure data quality and employ domain
classification to distinguish data points, thereby measuring overall diversity.
QuaDMix then employs a unified parameterized data sampling function that
determines the sampling probability of each data point based on these quality
and diversity related labels. To accelerate the search for the optimal
parameters involved in the QuaDMix framework, we conduct simulated experiments
on smaller models and use LightGBM for parameters searching, inspired by the
RegMix method. Our experiments across diverse models and datasets demonstrate
that QuaDMix achieves an average performance improvement of 7.2% across
multiple benchmarks. These results outperform the independent strategies for
quality and diversity, highlighting the necessity and ability to balance data
quality and diversity.Summary
AI-Generated Summary