Rapporto Tecnico Phi-4

Abstract

Presentiamo phi-4, un modello linguistico di 14 miliardi di parametri sviluppato con una ricetta di addestramento centralmente focalizzata sulla qualità dei dati. A differenza della maggior parte dei modelli linguistici, dove la preformazione si basa principalmente su fonti di dati organici come contenuti web o codice, phi-4 incorpora strategicamente dati sintetici durante l'intero processo di addestramento. Mentre i modelli precedenti della famiglia Phi in gran parte distillano le capacità di un modello insegnante (specificamente GPT-4), phi-4 supera sostanzialmente il suo modello insegnante sulle capacità di domande e risposte focalizzate su STEM, fornendo prove che le nostre tecniche di generazione dei dati e di post-addestramento vanno oltre la distillazione. Nonostante minimi cambiamenti all'architettura di phi-3, phi-4 raggiunge elevate prestazioni relative alla sua dimensione - specialmente su benchmark focalizzati sul ragionamento - grazie al miglioramento dei dati, del curriculum di addestramento e alle innovazioni nello schema di post-addestramento.

English

We present phi-4, a 14-billion parameter language model developed with a training recipe that is centrally focused on data quality. Unlike most language models, where pre-training is based primarily on organic data sources such as web content or code, phi-4 strategically incorporates synthetic data throughout the training process. While previous models in the Phi family largely distill the capabilities of a teacher model (specifically GPT-4), phi-4 substantially surpasses its teacher model on STEM-focused QA capabilities, giving evidence that our data-generation and post-training techniques go beyond distillation. Despite minimal changes to the phi-3 architecture, phi-4 achieves strong performance relative to its size -- especially on reasoning-focused benchmarks -- due to improved data, training curriculum, and innovations in the post-training scheme.

Rapporto Tecnico Phi-4

Phi-4 Technical Report

Abstract

Support