Come sintetizzare dati testuali senza il collasso del modello?
How to Synthesize Text Data without Model Collapse?
December 19, 2024
Autori: Xuekai Zhu, Daixuan Cheng, Hengli Li, Kaiyan Zhang, Ermo Hua, Xingtai Lv, Ning Ding, Zhouhan Lin, Zilong Zheng, Bowen Zhou
cs.AI
Abstract
Il collasso del modello nei dati sintetici indica che l'addestramento iterativo su dati auto-generati porta a un graduale declino delle prestazioni. Con la proliferazione dei modelli di intelligenza artificiale, i dati sintetici ridisegneranno in modo fondamentale l'ecosistema dei dati web. I futuri modelli GPT-{n} saranno inevitabilmente addestrati su un mix di dati sintetici e dati prodotti dall'uomo. In questo articolo, ci concentriamo su due domande: quale è l'impatto dei dati sintetici sull'addestramento dei modelli linguistici e come sintetizzare dati senza causare il collasso del modello? Prima di tutto, pre-addestriamo modelli linguistici su diverse proporzioni di dati sintetici, rivelando una correlazione negativa tra la proporzione di dati sintetici e le prestazioni del modello. Inoltre, conduciamo un'analisi statistica sui dati sintetici per scoprire il fenomeno dello spostamento distribuzionale e la sovrapposizione eccessiva delle caratteristiche n-gram. Ispirati dalle scoperte precedenti, proponiamo la modifica dei token sui dati prodotti dall'uomo per ottenere dati semi-sintetici. Come prova di concetto, dimostriamo teoricamente che la modifica a livello di token può prevenire il collasso del modello, poiché l'errore di test è limitato da un limite superiore finito. Conduci...
English
Model collapse in synthetic data indicates that iterative training on
self-generated data leads to a gradual decline in performance. With the
proliferation of AI models, synthetic data will fundamentally reshape the web
data ecosystem. Future GPT-{n} models will inevitably be trained on a blend
of synthetic and human-produced data. In this paper, we focus on two questions:
what is the impact of synthetic data on language model training, and how to
synthesize data without model collapse? We first pre-train language models
across different proportions of synthetic data, revealing a negative
correlation between the proportion of synthetic data and model performance. We
further conduct statistical analysis on synthetic data to uncover
distributional shift phenomenon and over-concentration of n-gram features.
Inspired by the above findings, we propose token editing on human-produced data
to obtain semi-synthetic data. As a proof of concept, we theoretically
demonstrate that token-level editing can prevent model collapse, as the test
error is constrained by a finite upper bound. We conduct extensive experiments
on pre-training from scratch, continual pre-training, and supervised
fine-tuning. The results validate our theoretical proof that token-level
editing improves data quality and enhances model performance.Summary
AI-Generated Summary