Масштабирование предварительного обучения больших языковых моделей с использованием учебного плана словаря
Scaling LLM Pre-training with Vocabulary Curriculum
February 25, 2025
Авторы: Fangyuan Yu
cs.AI
Аннотация
Современные языковые модели опираются на статические словари, фиксируемые перед предварительным обучением, в отличие от адаптивного усвоения словарного запаса, наблюдаемого в процессе изучения языка человеком. Чтобы сократить этот разрыв, мы представляем обучение с поэтапным усложнением словаря — подход, который повышает эффективность предварительного обучения с логарифмически-линейным ростом относительно размера словаря. Наш метод чередует расширение словаря на основе энтропии и оптимизацию модели, позволяя моделям изучать переносимые представления на различных уровнях гранулярности токенизации. Этот подход естественным образом приводит к оптимальному распределению вычислительных ресурсов: более длинные токены захватывают предсказуемый контент, в то время как более короткие токены сосредотачиваются на более сложных и труднопредсказуемых контекстах. Эксперименты на небольших моделях GPT демонстрируют улучшенную эффективность масштабирования, подтверждая действенность динамической токенизации. Мы публикуем наш код для поддержки дальнейших исследований и планируем расширить эксперименты на более крупные модели и различные области.
English
Modern language models rely on static vocabularies, fixed before pretraining,
in contrast to the adaptive vocabulary acquisition observed in human language
learning. To bridge this gap, we introduce vocabulary curriculum learning, an
approach that improves pretraining efficiency with log-linear scaling gains
relative to vocabulary size. Our method alternates between entropy-guided
vocabulary expansion and model optimization, enabling models to learn
transferable representations across diverse tokenization granularities. This
approach naturally gives rise to an optimal computation allocation pattern:
longer tokens capture predictable content, while shorter tokens focus on more
complex, harder-to-predict contexts. Experiments on small-scale GPT models
demonstrate improved scaling efficiency, reinforcing the effectiveness of
dynamic tokenization. We release our code to support further research and plan
to extend our experiments to larger models and diverse domains.Summary
AI-Generated Summary