Valutazione dei Modelli Linguistici come Generatori di Dati Sintetici
Evaluating Language Models as Synthetic Data Generators
December 4, 2024
Autori: Seungone Kim, Juyoung Suk, Xiang Yue, Vijay Viswanathan, Seongyun Lee, Yizhong Wang, Kiril Gashteovski, Carolin Lawrence, Sean Welleck, Graham Neubig
cs.AI
Abstract
Data la crescente utilizzazione dei dati sintetici nel post-training dei modelli linguistici (LM), la capacità di un LM di generare dati di alta qualità è diventata quasi altrettanto cruciale quanto la sua capacità di risolvere direttamente i problemi. Mentre lavori precedenti si sono concentrati nello sviluppare metodi efficaci di generazione dei dati, mancano di una comparazione sistematica dei diversi LM come generatori di dati in un contesto unificato. Per affrontare questa lacuna, proponiamo AgoraBench, un benchmark che fornisce impostazioni e metriche standardizzate per valutare le capacità di generazione dei dati dei LM. Attraverso la sintesi di 1,26 milioni di istanze di addestramento utilizzando 6 LM e l'addestramento di 99 modelli studente, scopriamo informazioni chiave sulle capacità di generazione dei dati dei LM. In primo luogo, osserviamo che i LM mostrano punti di forza distinti. Ad esempio, GPT-4o eccelle nella generazione di nuovi problemi, mentre Claude-3.5-Sonnet si comporta meglio nell'arricchire quelli esistenti. Inoltre, la nostra analisi rivela che la capacità di generazione dei dati di un LM non correla necessariamente con la sua capacità di risolvere problemi. Invece, diverse caratteristiche intrinseche della qualità dei dati, tra cui la qualità della risposta, la perplessità e la difficoltà delle istruzioni, servono collettivamente come indicatori migliori. Infine, dimostriamo che le scelte strategiche nel formato di output e la selezione attenta del modello, tenendo conto dei costi, influenzano significativamente l'efficacia della generazione dei dati.
English
Given the increasing use of synthetic data in language model (LM)
post-training, an LM's ability to generate high-quality data has become nearly
as crucial as its ability to solve problems directly. While prior works have
focused on developing effective data generation methods, they lack systematic
comparison of different LMs as data generators in a unified setting. To address
this gap, we propose AgoraBench, a benchmark that provides standardized
settings and metrics to evaluate LMs' data generation abilities. Through
synthesizing 1.26 million training instances using 6 LMs and training 99
student models, we uncover key insights about LMs' data generation
capabilities. First, we observe that LMs exhibit distinct strengths. For
instance, GPT-4o excels at generating new problems, while Claude-3.5-Sonnet
performs better at enhancing existing ones. Furthermore, our analysis reveals
that an LM's data generation ability doesn't necessarily correlate with its
problem-solving ability. Instead, multiple intrinsic features of data
quality-including response quality, perplexity, and instruction
difficulty-collectively serve as better indicators. Finally, we demonstrate
that strategic choices in output format and cost-conscious model selection
significantly impact data generation effectiveness.Summary
AI-Generated Summary