SampleMix: Стратегия смешивания данных предварительного обучения на уровне выборок с учетом координации качества и разнообразия данных
SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity
March 3, 2025
Авторы: Xiangyu Xi, Deyang Kong, Jian Yang, Jiawei Yang, Zhengyu Chen, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI
Аннотация
Существующие методы смешивания данных для предварительного обучения крупных языковых моделей (LLM) обычно следуют доменно-ориентированному подходу, представляющему собой процесс "сверху вниз", при котором сначала определяются веса доменов, а затем выполняется равномерная выборка данных в каждом домене. Однако такие подходы игнорируют значительные пересечения и общие черты между доменами, не обеспечивая контроля над глобальным разнообразием формируемого набора данных для обучения. Кроме того, равномерная выборка внутри доменов не учитывает тонкие, специфичные для каждого образца особенности, что может привести к субоптимальному распределению данных. Для устранения этих недостатков мы предлагаем новый подход к смешиванию данных на уровне отдельных образцов, основанный на парадигме "снизу вверх". Этот метод выполняет глобальную кросс-доменную выборку, систематически оценивая качество и разнообразие каждого образца, тем самым динамически определяя оптимальное распределение доменов. Комплексные эксперименты на множестве задач и оценка перплексии демонстрируют, что SampleMix превосходит существующие доменно-ориентированные методы. При этом SampleMix требует от 1,4 до 2,1 раза больше шагов обучения для достижения производительности базовых методов, что подчеркивает значительный потенциал SampleMix для оптимизации данных предварительного обучения.
English
Existing pretraining data mixing methods for large language models (LLMs)
typically follow a domain-wise methodology, a top-down process that first
determines domain weights and then performs uniform data sampling across each
domain. However, these approaches neglect significant inter-domain overlaps and
commonalities, failing to control the global diversity of the constructed
training dataset. Further, uniform sampling within domains ignores fine-grained
sample-specific features, potentially leading to suboptimal data distribution.
To address these shortcomings, we propose a novel sample-wise data mixture
approach based on a bottom-up paradigm. This method performs global
cross-domain sampling by systematically evaluating the quality and diversity of
each sample, thereby dynamically determining the optimal domain distribution.
Comprehensive experiments across multiple downstream tasks and perplexity
assessments demonstrate that SampleMix surpasses existing domain-based methods.
Meanwhile, SampleMix requires 1.4x to 2.1x training steps to achieves the
baselines' performance, highlighting the substantial potential of SampleMix to
optimize pre-training data.Summary
AI-Generated Summary