Come sintetizzare dati testuali senza il collasso del modello?

Abstract

Il collasso del modello nei dati sintetici indica che l'addestramento iterativo su dati auto-generati porta a un graduale declino delle prestazioni. Con la proliferazione dei modelli di intelligenza artificiale, i dati sintetici ridisegneranno in modo fondamentale l'ecosistema dei dati web. I futuri modelli GPT-{n} saranno inevitabilmente addestrati su un mix di dati sintetici e dati prodotti dall'uomo. In questo articolo, ci concentriamo su due domande: quale è l'impatto dei dati sintetici sull'addestramento dei modelli linguistici e come sintetizzare dati senza causare il collasso del modello? Prima di tutto, pre-addestriamo modelli linguistici su diverse proporzioni di dati sintetici, rivelando una correlazione negativa tra la proporzione di dati sintetici e le prestazioni del modello. Inoltre, conduciamo un'analisi statistica sui dati sintetici per scoprire il fenomeno dello spostamento distribuzionale e la sovrapposizione eccessiva delle caratteristiche n-gram. Ispirati dalle scoperte precedenti, proponiamo la modifica dei token sui dati prodotti dall'uomo per ottenere dati semi-sintetici. Come prova di concetto, dimostriamo teoricamente che la modifica a livello di token può prevenire il collasso del modello, poiché l'errore di test è limitato da un limite superiore finito. Conduci...

English

Model collapse in synthetic data indicates that iterative training on self-generated data leads to a gradual decline in performance. With the proliferation of AI models, synthetic data will fundamentally reshape the web data ecosystem. Future GPT-{n} models will inevitably be trained on a blend of synthetic and human-produced data. In this paper, we focus on two questions: what is the impact of synthetic data on language model training, and how to synthesize data without model collapse? We first pre-train language models across different proportions of synthetic data, revealing a negative correlation between the proportion of synthetic data and model performance. We further conduct statistical analysis on synthetic data to uncover distributional shift phenomenon and over-concentration of n-gram features. Inspired by the above findings, we propose token editing on human-produced data to obtain semi-synthetic data. As a proof of concept, we theoretically demonstrate that token-level editing can prevent model collapse, as the test error is constrained by a finite upper bound. We conduct extensive experiments on pre-training from scratch, continual pre-training, and supervised fine-tuning. The results validate our theoretical proof that token-level editing improves data quality and enhances model performance.

Come sintetizzare dati testuali senza il collasso del modello?

How to Synthesize Text Data without Model Collapse?

Abstract

Support