Flow-DPO : Amélioration du raisonnement mathématique de LLM par l'apprentissage multi-agent en ligne

Résumé

Le raisonnement mathématique est une capacité cruciale pour les Grands Modèles de Langage (GML), cependant la génération de traces de raisonnement détaillées et précises reste un défi significatif. Cet article présente une nouvelle approche pour produire des traces de raisonnement de haute qualité pour le fine-tuning des GML en utilisant des Flows d'apprentissage en ligne. Notre méthode utilise un Flow de production de sortie incrémentiel, où des GML de composants construisent collaborativement des solutions grâce à une communication itérative. Nous entraînons le Flow en utilisant un apprentissage en ligne d'Optimisation de Préférence Directe (OPD) avec des rollouts, générant des paires OPD pour chaque exemple d'entraînement et mettant à jour les modèles en temps réel. Nous comparons directement la qualité des traces de raisonnement générées par notre méthode avec celles produites par inférence directe de modèle, démontrant l'efficacité de notre approche pour améliorer les performances des GML dans les tâches de raisonnement mathématique.

English

Mathematical reasoning is a crucial capability for Large Language Models (LLMs), yet generating detailed and accurate reasoning traces remains a significant challenge. This paper introduces a novel approach to produce high-quality reasoning traces for LLM fine-tuning using online learning Flows. Our method employs an incremental output production Flow, where component LLMs collaboratively construct solutions through iterative communication. We train the Flow using online Direct Preference Optimization (DPO) learning with rollouts, generating DPO pairs for each training example and updating models in real-time. We directly compare the quality of reasoning traces generated by our method with those produced through direct model inference, demonstrating the effectiveness of our approach in improving LLM performance in mathematical reasoning tasks.

Flow-DPO : Amélioration du raisonnement mathématique de LLM par l'apprentissage multi-agent en ligne

Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning

Résumé

Support