Montessori-Instruct : Générer des données d'entraînement influentes adaptées à l'apprentissage des étudiants
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning
October 18, 2024
Auteurs: Xiaochuan Li, Zichun Yu, Chenyan Xiong
cs.AI
Résumé
Les données synthétiques ont été largement utilisées pour entraîner de grands modèles de langage, mais leur nature générative introduit inévitablement des signaux d'apprentissage bruyants, non informatifs et trompeurs. Dans cet article, nous proposons Montessori-Instruct, un nouveau cadre de synthèse de données qui adapte la capacité de synthèse de données du modèle de langage enseignant au processus d'apprentissage du modèle de langage étudiant. Plus précisément, nous utilisons l'influence locale des données synthétiques d'entraînement sur les étudiants pour caractériser les préférences d'apprentissage des étudiants. Ensuite, nous formons le modèle enseignant avec l'Optimisation des Préférences Directes (OPD) pour générer des données synthétiques adaptées aux préférences d'apprentissage des étudiants. Des expériences avec Llama3-8B-Instruct (enseignant) et Llama3-8B (étudiant) sur Alpaca Eval et MT-Bench montrent que Montessori-Instruct surpasse significativement les méthodes de synthèse standard de 18,35 % et 46,24 % respectivement. Notre méthode surpasse également les données synthétisées par un modèle enseignant plus puissant, GPT-4o. Une analyse supplémentaire confirme les avantages de l'apprentissage de l'enseignant pour générer des données d'entraînement plus influentes dans l'amélioration de l'apprentissage de l'étudiant, les avantages de l'influence locale des données pour mesurer avec précision les préférences des étudiants, et la robustesse de Montessori-Instruct sur différents modèles d'étudiants. Notre code et nos données sont disponibles en open source sur https://github.com/cxcscmu/Montessori-Instruct.
English
Synthetic data has been widely used to train large language models, but their
generative nature inevitably introduces noisy, non-informative, and misleading
learning signals. In this paper, we propose Montessori-Instruct, a novel data
synthesis framework that tailors the data synthesis ability of the teacher
language model toward the student language model's learning process.
Specifically, we utilize local data influence of synthetic training data points
on students to characterize students' learning preferences. Then, we train the
teacher model with Direct Preference Optimization (DPO) to generate synthetic
data tailored toward student learning preferences. Experiments with
Llama3-8B-Instruct (teacher) and Llama3-8B (student) on Alpaca Eval and
MT-Bench demonstrate that Montessori-Instruct significantly outperforms
standard synthesis methods by 18.35\% and 46.24\% relatively. Our method also
beats data synthesized by a stronger teacher model, GPT-4o. Further analysis
confirms the benefits of teacher's learning to generate more influential
training data in the student's improved learning, the advantages of local data
influence in accurately measuring student preferences, and the robustness of
Montessori-Instruct across different student models. Our code and data are
open-sourced at https://github.com/cxcscmu/Montessori-Instruct.Summary
AI-Generated Summary