Rapporto Tecnico Phi-4

Phi-4 Technical Report

December 12, 2024
Autori: Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang
cs.AI

Abstract

Presentiamo phi-4, un modello linguistico di 14 miliardi di parametri sviluppato con una ricetta di addestramento centralmente focalizzata sulla qualità dei dati. A differenza della maggior parte dei modelli linguistici, dove la preformazione si basa principalmente su fonti di dati organici come contenuti web o codice, phi-4 incorpora strategicamente dati sintetici durante l'intero processo di addestramento. Mentre i modelli precedenti della famiglia Phi in gran parte distillano le capacità di un modello insegnante (specificamente GPT-4), phi-4 supera sostanzialmente il suo modello insegnante sulle capacità di domande e risposte focalizzate su STEM, fornendo prove che le nostre tecniche di generazione dei dati e di post-addestramento vanno oltre la distillazione. Nonostante minimi cambiamenti all'architettura di phi-3, phi-4 raggiunge elevate prestazioni relative alla sua dimensione - specialmente su benchmark focalizzati sul ragionamento - grazie al miglioramento dei dati, del curriculum di addestramento e alle innovazioni nello schema di post-addestramento.
English
We present phi-4, a 14-billion parameter language model developed with a training recipe that is centrally focused on data quality. Unlike most language models, where pre-training is based primarily on organic data sources such as web content or code, phi-4 strategically incorporates synthetic data throughout the training process. While previous models in the Phi family largely distill the capabilities of a teacher model (specifically GPT-4), phi-4 substantially surpasses its teacher model on STEM-focused QA capabilities, giving evidence that our data-generation and post-training techniques go beyond distillation. Despite minimal changes to the phi-3 architecture, phi-4 achieves strong performance relative to its size -- especially on reasoning-focused benchmarks -- due to improved data, training curriculum, and innovations in the post-training scheme.

Summary

AI-Generated Summary

PDF1046December 13, 2024