Масштабный отбор данных для настройки инструкций
Large-Scale Data Selection for Instruction Tuning
March 3, 2025
Авторы: Hamish Ivison, Muru Zhang, Faeze Brahman, Pang Wei Koh, Pradeep Dasigi
cs.AI
Аннотация
Выбор высококачественных данных для обучения из более крупного набора является важным шагом при тонкой настройке языковых моделей на инструкциях, так как тщательно отобранные наборы данных часто приводят к созданию моделей, превосходящих те, что обучены на значительно больших, но более зашумленных наборах. Автоматизированные подходы к выбору данных для тонкой настройки на инструкциях обычно тестируются путем отбора небольших наборов данных (примерно 10 тыс. образцов) из небольших пулов (100–200 тыс. образцов). Однако популярные развернутые модели, настроенные на инструкциях, часто обучаются на сотнях тысяч или миллионах образцов, выбранных из еще более крупных пулов данных. Мы представляем систематическое исследование того, насколько хорошо методы выбора данных масштабируются в таких условиях, отбирая до 2,5 млн образцов из пулов объемом до 5,8 млн образцов и оценивая их на 7 разнообразных задачах. Мы показываем, что многие недавно предложенные методы уступают случайному выбору в этих условиях (при этом требуя больше вычислительных ресурсов), а некоторые даже демонстрируют снижение производительности при увеличении доступного пула данных для выбора. Однако мы обнаружили, что вариант метода выбора данных на основе представлений (RDS+), который использует взвешенное усреднение скрытых состояний предобученной языковой модели, стабильно превосходит более сложные методы во всех протестированных условиях — при этом оставаясь более вычислительно эффективным. Наши результаты подчеркивают, что свойства масштабируемости предлагаемых автоматизированных методов выбора данных требуют более тщательного изучения. Мы публикуем наш код, данные и модели по адресу https://github.com/hamishivi/automated-instruction-selection.
English
Selecting high-quality training data from a larger pool is a crucial step
when instruction-tuning language models, as carefully curated datasets often
produce models that outperform those trained on much larger, noisier datasets.
Automated data selection approaches for instruction-tuning are typically tested
by selecting small datasets (roughly 10k samples) from small pools (100-200k
samples). However, popular deployed instruction-tuned models often train on
hundreds of thousands to millions of samples, subsampled from even larger data
pools. We present a systematic study of how well data selection methods scale
to these settings, selecting up to 2.5M samples from pools of up to 5.8M
samples and evaluating across 7 diverse tasks. We show that many recently
proposed methods fall short of random selection in this setting (while using
more compute), and even decline in performance when given access to larger
pools of data to select over. However, we find that a variant of
representation-based data selection (RDS+), which uses weighted mean pooling of
pretrained LM hidden states, consistently outperforms more complex methods
across all settings tested -- all whilst being more compute-efficient. Our
findings highlight that the scaling properties of proposed automated selection
methods should be more closely examined. We release our code, data, and models
at https://github.com/hamishivi/automated-instruction-selection.Summary
AI-Generated Summary