파이-4 기술 보고서
Phi-4 Technical Report
December 12, 2024
저자: Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang
cs.AI
초록
우리는 데이터 품질에 중점을 둔 교육 레시피로 개발된 140억 개 파라미터 언어 모델인 phi-4를 제시합니다. 대부분의 언어 모델이 주로 웹 콘텐츠나 코드와 같은 유기적 데이터 원본에 기초한 사전 교육을 하는 반면, phi-4는 교육 과정 전반에 걸쳐 합성 데이터를 전략적으로 통합합니다. Phi 계열의 이전 모델들은 대부분 선생 모델의 능력(구체적으로 GPT-4)을 요약하는 데 중점을 두었지만, phi-4는 STEM 중심의 QA 능력에서 선생 모델을 크게 능가하여, 데이터 생성 및 교육 이후 기술이 단순 요약을 넘어가는 증거를 제공합니다. phi-3 아키텍처에는 최소한의 변경이 있음에도 불구하고, phi-4는 데이터, 교육 커리큘럼, 그리고 교육 이후 체계의 혁신으로 인해 크기에 비해 강력한 성능을 달성합니다. 특히 추론 중심의 벤치마크에서.
English
We present phi-4, a 14-billion parameter language model developed with a
training recipe that is centrally focused on data quality. Unlike most language
models, where pre-training is based primarily on organic data sources such as
web content or code, phi-4 strategically incorporates synthetic data throughout
the training process. While previous models in the Phi family largely distill
the capabilities of a teacher model (specifically GPT-4), phi-4 substantially
surpasses its teacher model on STEM-focused QA capabilities, giving evidence
that our data-generation and post-training techniques go beyond distillation.
Despite minimal changes to the phi-3 architecture, phi-4 achieves strong
performance relative to its size -- especially on reasoning-focused benchmarks
-- due to improved data, training curriculum, and innovations in the
post-training scheme.