SmolLM2: 작은 언어 모델의 데이터 중심 훈련 시, Smol이 커지다
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model
February 4, 2025
저자: Loubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf
cs.AI
초록
대형 언어 모델은 인공 지능의 많은 응용 분야에서의 획기적인 발전을 촉진했지만, 그들의 고유한 거대함은 계산적으로 비싸며 자원이 제한된 환경에서의 배포가 어렵게 만듭니다. 본 논문에서는 최첨단 "소형" (17억 개의 매개변수) 언어 모델(SmolLM2)의 개발을 기술합니다. 강력한 성능을 달성하기 위해 SmolLM2를 약 11조 토큰의 데이터로 다단계 훈련 과정을 통해 과적합시켰는데, 이 과정에서 웹 텍스트와 전문 수학, 코드, 그리고 지시어를 따르는 데이터를 혼합했습니다. 우리는 기존 데이터셋이 문제적으로 작거나 품질이 낮다고 판단된 단계에서 새로운 전문 데이터셋(FineMath, Stack-Edu, SmolTalk)을 도입했습니다. 설계 결정을 지원하기 위해 우리는 소규모 제거 실험과 이전 단계의 성능을 기반으로 각 단계에서 데이터셋 혼합 비율을 업데이트하는 수동 정제 과정을 수행했습니다. 결과적으로, SmolLM2가 Qwen2.5-1.5B와 Llama3.2-1B를 포함한 최근 소형 언어 모델을 능가함을 입증했습니다. LM 개발 및 소형 LM의 응용에 대한 향후 연구를 촉진하기 위해, 이 프로젝트 과정에서 준비한 모든 데이터셋과 함께 SmolLM2를 공개합니다.
English
While large language models have facilitated breakthroughs in many
applications of artificial intelligence, their inherent largeness makes them
computationally expensive and challenging to deploy in resource-constrained
settings. In this paper, we document the development of SmolLM2, a
state-of-the-art "small" (1.7 billion parameter) language model (LM). To attain
strong performance, we overtrain SmolLM2 on ~11 trillion tokens of data using a
multi-stage training process that mixes web text with specialized math, code,
and instruction-following data. We additionally introduce new specialized
datasets (FineMath, Stack-Edu, and SmolTalk) at stages where we found existing
datasets to be problematically small or low-quality. To inform our design
decisions, we perform both small-scale ablations as well as a manual refinement
process that updates the dataset mixing rates at each stage based on the
performance at the previous stage. Ultimately, we demonstrate that SmolLM2
outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B. To
facilitate future research on LM development as well as applications of small
LMs, we release both SmolLM2 as well as all of the datasets we prepared in the
course of this project.Summary
AI-Generated Summary