Montessori-Instructie: Genereer Invloedrijke Trainingsgegevens Op Maat voor Studentenleren
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning
October 18, 2024
Auteurs: Xiaochuan Li, Zichun Yu, Chenyan Xiong
cs.AI
Samenvatting
Synthetische data worden veel gebruikt om grote taalmodellen te trainen, maar hun generatieve aard introduceert onvermijdelijk ruisige, niet-informatieve en misleidende leersignalen. In dit artikel stellen we Montessori-Instruct voor, een nieuw data synthese framework dat de data synthese capaciteit van het docent-taalmodel afstemt op het leerproces van het student-taalmodel. Specifiek gebruiken we de lokale data-invloed van synthetische trainingsdata punten op studenten om de leer voorkeuren van studenten te karakteriseren. Vervolgens trainen we het docentmodel met Directe Voorkeurs Optimalisatie (DPO) om synthetische data te genereren die zijn afgestemd op de leer voorkeuren van studenten. Experimenten met Llama3-8B-Instruct (docent) en Llama3-8B (student) op Alpaca Eval en MT-Bench tonen aan dat Montessori-Instruct aanzienlijk beter presteert dan standaard synthese methoden met respectievelijk 18.35% en 46.24%. Onze methode overtreft ook data gesynthetiseerd door een sterker docentmodel, GPT-4o. Verder onderzoek bevestigt de voordelen van het leren van de docent om meer invloedrijke trainingsdata te genereren in het verbeterde leren van de student, de voordelen van lokale data-invloed bij het nauwkeurig meten van studenten voorkeuren, en de robuustheid van Montessori-Instruct over verschillende studentmodellen. Onze code en data zijn open-source beschikbaar op https://github.com/cxcscmu/Montessori-Instruct.
English
Synthetic data has been widely used to train large language models, but their
generative nature inevitably introduces noisy, non-informative, and misleading
learning signals. In this paper, we propose Montessori-Instruct, a novel data
synthesis framework that tailors the data synthesis ability of the teacher
language model toward the student language model's learning process.
Specifically, we utilize local data influence of synthetic training data points
on students to characterize students' learning preferences. Then, we train the
teacher model with Direct Preference Optimization (DPO) to generate synthetic
data tailored toward student learning preferences. Experiments with
Llama3-8B-Instruct (teacher) and Llama3-8B (student) on Alpaca Eval and
MT-Bench demonstrate that Montessori-Instruct significantly outperforms
standard synthesis methods by 18.35\% and 46.24\% relatively. Our method also
beats data synthesized by a stronger teacher model, GPT-4o. Further analysis
confirms the benefits of teacher's learning to generate more influential
training data in the student's improved learning, the advantages of local data
influence in accurately measuring student preferences, and the robustness of
Montessori-Instruct across different student models. Our code and data are
open-sourced at https://github.com/cxcscmu/Montessori-Instruct.Summary
AI-Generated Summary