Flow-DPO : Amélioration du raisonnement mathématique de LLM par l'apprentissage multi-agent en ligne
Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning
October 29, 2024
Auteurs: Yihe Deng, Paul Mineiro
cs.AI
Résumé
Le raisonnement mathématique est une capacité cruciale pour les Grands Modèles de Langage (GML), cependant la génération de traces de raisonnement détaillées et précises reste un défi significatif. Cet article présente une nouvelle approche pour produire des traces de raisonnement de haute qualité pour le fine-tuning des GML en utilisant des Flows d'apprentissage en ligne. Notre méthode utilise un Flow de production de sortie incrémentiel, où des GML de composants construisent collaborativement des solutions grâce à une communication itérative. Nous entraînons le Flow en utilisant un apprentissage en ligne d'Optimisation de Préférence Directe (OPD) avec des rollouts, générant des paires OPD pour chaque exemple d'entraînement et mettant à jour les modèles en temps réel. Nous comparons directement la qualité des traces de raisonnement générées par notre méthode avec celles produites par inférence directe de modèle, démontrant l'efficacité de notre approche pour améliorer les performances des GML dans les tâches de raisonnement mathématique.
English
Mathematical reasoning is a crucial capability for Large Language Models
(LLMs), yet generating detailed and accurate reasoning traces remains a
significant challenge. This paper introduces a novel approach to produce
high-quality reasoning traces for LLM fine-tuning using online learning
Flows. Our method employs an incremental output production Flow, where
component LLMs collaboratively construct solutions through iterative
communication. We train the Flow using online Direct Preference Optimization
(DPO) learning with rollouts, generating DPO pairs for each training example
and updating models in real-time. We directly compare the quality of reasoning
traces generated by our method with those produced through direct model
inference, demonstrating the effectiveness of our approach in improving LLM
performance in mathematical reasoning tasks.Summary
AI-Generated Summary