Flow-DPO : Amélioration du raisonnement mathématique de LLM par l'apprentissage multi-agent en ligne
Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning
Résumé
Summary
AI-Generated Summary
Aperçu de l'article
L'étude vise à améliorer la capacité de raisonnement mathématique des Large Language Models (LLMs) en générant des traces de raisonnement de haute qualité via des Flows d'apprentissage en ligne, utilisant l'apprentissage en ligne Direct Preference Optimization (DPO) avec des rollouts pour mettre à jour les modèles en temps réel.
Contribution Principale
- Utilisation de Flows d'apprentissage en ligne pour améliorer les capacités de raisonnement mathématique des LLMs.
- Intégration de l'apprentissage en ligne DPO avec des rollouts pour générer des paires DPO et mettre à jour les modèles en temps réel.
- Utilisation de deux LLMs indépendants, Answer LLM et Stop LLM, pour générer des réponses partielles et déterminer la complétude des réponses.
Contexte de Recherche
L'article se situe dans le domaine de l'amélioration des capacités de raisonnement mathématique des modèles linguistiques en utilisant des méthodes d'apprentissage en ligne et des architectures de Flows spécifiques.
Mots-clés
Large Language Models (LLMs), Flows d'apprentissage en ligne, Direct Preference Optimization (DPO), Rollouts, Traces de raisonnement, Fine-tuning, Adaptateurs LoRA.
Contexte
L'étude se concentre sur l'amélioration du raisonnement mathématique des LLMs en générant des traces de raisonnement de haute qualité via des Flows d'apprentissage en ligne, comblant ainsi le manque de méthodes efficaces pour ce type de tâche.
Lacunes de Recherche
- Absence de méthodes efficaces pour améliorer le raisonnement mathématique des LLMs.
- Besoin de techniques pour générer des traces de raisonnement de qualité pour le fine-tuning des modèles linguistiques.
Défis Techniques
- Génération de traces de raisonnement de haute qualité.
- Intégration de l'apprentissage en ligne DPO avec des rollouts pour améliorer la généralisation.
Approches Antérieures
- Méthodes traditionnelles de fine-tuning des LLMs.
- Utilisation de prompts pour guider les modèles linguistiques.
Méthodologie
L'étude repose sur l'utilisation de Flows d'apprentissage en ligne, l'apprentissage DPO avec des rollouts, et l'architecture de deux LLMs indépendants pour améliorer le raisonnement mathématique des modèles linguistiques.
Fondement Théorique
- Utilisation de l'apprentissage en ligne DPO pour l'optimisation des préférences directes.
- Architecture de deux LLMs distincts pour la génération de réponses et l'évaluation de la complétude.
Architecture Technique
- Utilisation de deux LLMs indépendants, Answer LLM et Stop LLM.
- Fine-tuning des LLMs avec des adaptateurs LoRA pour des tâches spécialisées.
Détails de Mise en Œuvre
- Expérimentation sur des clusters GPU NVIDIA RTX A100 (80G).
- Processus de fine-tuning DPO en ligne prenant 36 à 48 heures sur 4 GPU.
- Hyperparamètres incluant des taux d'apprentissage, des optimiseurs, des coefficients DPO, etc.
Points d'Innovation
- Utilisation de l'apprentissage en ligne DPO avec des rollouts pour améliorer la généralisation.
- Fine-tuning des LLMs avec des adaptateurs LoRA pour spécialiser les tâches.
Validation Expérimentale
L'expérimentation confirme l'efficacité du Flow dans la génération de traces de raisonnement de haute qualité, surpassant les méthodes traditionnelles de fine-tuning des LLMs.
Configuration
- Utilisation de prompts pour guider les modèles linguistiques.
- Hyperparamètres spécifiques pour le fine-tuning DPO en ligne et la compilation.
Métriques
- Augmentation de l'exactitude de 20% pour un modèle et de 4 points de pourcentage pour un autre.
- Comparaison des traces de raisonnement générées par le Flow avec celles générées directement par le modèle.
Résultats
- Amélioration significative de la qualité des traces de raisonnement et des performances des LLMs.
- Adaptabilité du Flow à différentes tailles de morceaux et tâches de raisonnement complexes.
Analyse Comparative
- Comparaison des traces de raisonnement générées par le Flow avec les traces correctes générées par le modèle ou les données réelles.
Impact et Implications
L'étude démontre l'efficacité du Flow dans l'amélioration du raisonnement mathématique des LLMs, offrant des perspectives prometteuses pour l'optimisation des processus de formation et l'extension à d'autres domaines nécessitant des capacités de raisonnement sophistiquées.
Principaux Résultats
- Génération de traces de raisonnement de haute qualité surpassant les méthodes traditionnelles.
- Adaptabilité du Flow à diverses tâches de raisonnement complexe.
Limitations
- Durée de fine-tuning relativement longue.
- Besoin d'optimisation continue des hyperparamètres.
Directions Futures
- Optimisation des processus de formation et augmentation des données.
- Extension du Flow à d'autres domaines nécessitant des capacités de raisonnement sophistiquées.
Signification Pratique
- Amélioration des performances des LLMs dans le raisonnement mathématique.
- Potentiel d'application à d'autres domaines nécessitant des capacités de raisonnement avancées.