Addestramento e Valutazione dei Modelli Linguistici con la Generazione di Dati basata su Modelli.
Training and Evaluating Language Models with Template-based Data Generation
November 27, 2024
Autori: Yifan Zhang
cs.AI
Abstract
Il rapido avanzamento dei grandi modelli linguistici (LLM) come GPT-3, PaLM e Llama ha trasformato significativamente l'elaborazione del linguaggio naturale, mostrando notevoli capacità nell'interpretazione e generazione del linguaggio. Tuttavia, questi modelli spesso faticano con compiti che richiedono un ragionamento complesso, in particolare nella risoluzione di problemi matematici, a causa in parte della scarsità di dataset specifici del dominio di larga scala e di alta qualità necessari per addestrare abilità di ragionamento sofisticate. Per affrontare questa limitazione, introduciamo la Generazione di Dati basata su Modelli di Template (TDG), un nuovo approccio che sfrutta i LLM (GPT-4) per generare automaticamente meta-template parametrizzati, che vengono poi utilizzati per sintetizzare una vasta gamma di problemi e soluzioni di alta qualità. Sfruttando TDG, creiamo TemplateMath Part I: TemplateGSM, un dataset composto da oltre 7 milioni di problemi matematici di scuola elementare generati sinteticamente - ciascuno accompagnato da soluzioni in linguaggio naturale e basate su codice - con il potenziale di generare un numero virtualmente illimitato di ulteriori problemi. Questo dataset allevia la scarsità di dataset matematici su larga scala e funge da preziosa risorsa per il pre-addestramento, il raffinamento e la valutazione dei LLM nel ragionamento matematico. Il nostro metodo non solo consente la generazione di dati virtualmente infiniti, ma eleva anche l'aumento dei dati a un nuovo livello utilizzando GPT-4 per la generazione di meta-template, garantendo strutture di problemi diverse e di alta qualità. Il dataset TemplateMath Part I: TemplateGSM è disponibile pubblicamente su https://huggingface.co/datasets/math-ai/TemplateGSM. Il codice è disponibile su https://github.com/iiis-ai/TemplateMath.
English
The rapid advancement of large language models (LLMs) such as GPT-3, PaLM,
and Llama has significantly transformed natural language processing, showcasing
remarkable capabilities in understanding and generating language. However,
these models often struggle with tasks requiring complex reasoning,
particularly in mathematical problem-solving, due in part to the scarcity of
large-scale, high-quality, domain-specific datasets necessary for training
sophisticated reasoning abilities. To address this limitation, we introduce
Template-based Data Generation (TDG), a novel approach that leverages LLMs
(GPT-4) to automatically generate parameterized meta-templates, which are then
used to synthesize a vast array of high-quality problems and solutions.
Leveraging TDG, we create TemplateMath Part I: TemplateGSM, a dataset
comprising over 7 million synthetically generated grade school math
problems--each accompanied by code-based and natural language solutions--with
the potential to generate an effectively unlimited number more. This dataset
alleviates the scarcity of large-scale mathematical datasets and serves as a
valuable resource for pre-training, fine-tuning, and evaluating LLMs in
mathematical reasoning. Our method not only enables the generation of virtually
infinite data but also elevates data augmentation to a new level by using GPT-4
for meta-template generation, ensuring diverse and high-quality problem
structures. The TemplateMath Part I: TemplateGSM dataset is publicly available
at https://huggingface.co/datasets/math-ai/TemplateGSM. The code is available
at https://github.com/iiis-ai/TemplateMath.Summary
AI-Generated Summary