Montessori-Lehre: Generierung einflussreicher Trainingsdaten, maßgeschneidert für das Lernen von Studierenden.
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning
October 18, 2024
Autoren: Xiaochuan Li, Zichun Yu, Chenyan Xiong
cs.AI
Zusammenfassung
Synthetische Daten wurden weit verbreitet verwendet, um große Sprachmodelle zu trainieren, aber ihre generative Natur führt zwangsläufig zu rauschhaften, nicht informativen und irreführenden Lernsignalen. In diesem Paper schlagen wir Montessori-Instruct vor, ein neuartiges Daten-Synthese-Framework, das die Fähigkeit des Lehrer-Sprachmodells zur Daten-Synthese auf den Lernprozess des Schüler-Sprachmodells zuschneidet. Konkret nutzen wir den lokalen Einfluss von synthetischen Trainingsdatenpunkten auf Schüler, um die Lernpräferenzen der Schüler zu charakterisieren. Anschließend trainieren wir das Lehrermodell mit der Direkten Präferenzoptimierung (DPO), um synthetische Daten zu generieren, die auf die Lernpräferenzen der Schüler zugeschnitten sind. Experimente mit Llama3-8B-Instruct (Lehrer) und Llama3-8B (Schüler) auf Alpaca Eval und MT-Bench zeigen, dass Montessori-Instruct im Vergleich zu Standard-Synthesemethoden signifikant um 18,35\% bzw. 46,24\% besser abschneidet. Unsere Methode übertrifft auch Daten, die von einem stärkeren Lehrermodell, GPT-4o, synthetisiert wurden. Weitere Analysen bestätigen die Vorteile des Lehrers, der durch das Generieren von einflussreicheren Trainingsdaten das verbesserte Lernen des Schülers ermöglicht, die Vorteile des lokalen Dateninflusses bei der genauen Messung der Schülerpräferenzen und die Robustheit von Montessori-Instruct über verschiedene Schülermodelle hinweg. Unser Code und unsere Daten sind unter https://github.com/cxcscmu/Montessori-Instruct öffentlich zugänglich gemacht.
English
Synthetic data has been widely used to train large language models, but their
generative nature inevitably introduces noisy, non-informative, and misleading
learning signals. In this paper, we propose Montessori-Instruct, a novel data
synthesis framework that tailors the data synthesis ability of the teacher
language model toward the student language model's learning process.
Specifically, we utilize local data influence of synthetic training data points
on students to characterize students' learning preferences. Then, we train the
teacher model with Direct Preference Optimization (DPO) to generate synthetic
data tailored toward student learning preferences. Experiments with
Llama3-8B-Instruct (teacher) and Llama3-8B (student) on Alpaca Eval and
MT-Bench demonstrate that Montessori-Instruct significantly outperforms
standard synthesis methods by 18.35\% and 46.24\% relatively. Our method also
beats data synthesized by a stronger teacher model, GPT-4o. Further analysis
confirms the benefits of teacher's learning to generate more influential
training data in the student's improved learning, the advantages of local data
influence in accurately measuring student preferences, and the robustness of
Montessori-Instruct across different student models. Our code and data are
open-sourced at https://github.com/cxcscmu/Montessori-Instruct.Summary
AI-Generated Summary