Flow-DPO : Amélioration du raisonnement mathématique de LLM par l'apprentissage multi-agent en ligne

Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning

October 29, 2024
Auteurs: Yihe Deng, Paul Mineiro
cs.AI

Résumé

Le raisonnement mathématique est une capacité cruciale pour les Grands Modèles de Langage (GML), cependant la génération de traces de raisonnement détaillées et précises reste un défi significatif. Cet article présente une nouvelle approche pour produire des traces de raisonnement de haute qualité pour le fine-tuning des GML en utilisant des Flows d'apprentissage en ligne. Notre méthode utilise un Flow de production de sortie incrémentiel, où des GML de composants construisent collaborativement des solutions grâce à une communication itérative. Nous entraînons le Flow en utilisant un apprentissage en ligne d'Optimisation de Préférence Directe (OPD) avec des rollouts, générant des paires OPD pour chaque exemple d'entraînement et mettant à jour les modèles en temps réel. Nous comparons directement la qualité des traces de raisonnement générées par notre méthode avec celles produites par inférence directe de modèle, démontrant l'efficacité de notre approche pour améliorer les performances des GML dans les tâches de raisonnement mathématique.
English
Mathematical reasoning is a crucial capability for Large Language Models (LLMs), yet generating detailed and accurate reasoning traces remains a significant challenge. This paper introduces a novel approach to produce high-quality reasoning traces for LLM fine-tuning using online learning Flows. Our method employs an incremental output production Flow, where component LLMs collaboratively construct solutions through iterative communication. We train the Flow using online Direct Preference Optimization (DPO) learning with rollouts, generating DPO pairs for each training example and updating models in real-time. We directly compare the quality of reasoning traces generated by our method with those produced through direct model inference, demonstrating the effectiveness of our approach in improving LLM performance in mathematical reasoning tasks.

Summary

AI-Generated Summary

Aperçu de l'article

L'étude vise à améliorer la capacité de raisonnement mathématique des Large Language Models (LLMs) en générant des traces de raisonnement de haute qualité via des Flows d'apprentissage en ligne, utilisant l'apprentissage en ligne Direct Preference Optimization (DPO) avec des rollouts pour mettre à jour les modèles en temps réel.

Contribution Principale

  • Utilisation de Flows d'apprentissage en ligne pour améliorer les capacités de raisonnement mathématique des LLMs.
  • Intégration de l'apprentissage en ligne DPO avec des rollouts pour générer des paires DPO et mettre à jour les modèles en temps réel.
  • Utilisation de deux LLMs indépendants, Answer LLM et Stop LLM, pour générer des réponses partielles et déterminer la complétude des réponses.

Contexte de Recherche

L'article se situe dans le domaine de l'amélioration des capacités de raisonnement mathématique des modèles linguistiques en utilisant des méthodes d'apprentissage en ligne et des architectures de Flows spécifiques.

Mots-clés

Large Language Models (LLMs), Flows d'apprentissage en ligne, Direct Preference Optimization (DPO), Rollouts, Traces de raisonnement, Fine-tuning, Adaptateurs LoRA.

Contexte

L'étude se concentre sur l'amélioration du raisonnement mathématique des LLMs en générant des traces de raisonnement de haute qualité via des Flows d'apprentissage en ligne, comblant ainsi le manque de méthodes efficaces pour ce type de tâche.

Lacunes de Recherche

  • Absence de méthodes efficaces pour améliorer le raisonnement mathématique des LLMs.
  • Besoin de techniques pour générer des traces de raisonnement de qualité pour le fine-tuning des modèles linguistiques.

Défis Techniques

  • Génération de traces de raisonnement de haute qualité.
  • Intégration de l'apprentissage en ligne DPO avec des rollouts pour améliorer la généralisation.

Approches Antérieures

  • Méthodes traditionnelles de fine-tuning des LLMs.
  • Utilisation de prompts pour guider les modèles linguistiques.

Méthodologie

L'étude repose sur l'utilisation de Flows d'apprentissage en ligne, l'apprentissage DPO avec des rollouts, et l'architecture de deux LLMs indépendants pour améliorer le raisonnement mathématique des modèles linguistiques.

Fondement Théorique

  • Utilisation de l'apprentissage en ligne DPO pour l'optimisation des préférences directes.
  • Architecture de deux LLMs distincts pour la génération de réponses et l'évaluation de la complétude.

Architecture Technique

  • Utilisation de deux LLMs indépendants, Answer LLM et Stop LLM.
  • Fine-tuning des LLMs avec des adaptateurs LoRA pour des tâches spécialisées.

Détails de Mise en Œuvre

  • Expérimentation sur des clusters GPU NVIDIA RTX A100 (80G).
  • Processus de fine-tuning DPO en ligne prenant 36 à 48 heures sur 4 GPU.
  • Hyperparamètres incluant des taux d'apprentissage, des optimiseurs, des coefficients DPO, etc.

Points d'Innovation

  • Utilisation de l'apprentissage en ligne DPO avec des rollouts pour améliorer la généralisation.
  • Fine-tuning des LLMs avec des adaptateurs LoRA pour spécialiser les tâches.

Validation Expérimentale

L'expérimentation confirme l'efficacité du Flow dans la génération de traces de raisonnement de haute qualité, surpassant les méthodes traditionnelles de fine-tuning des LLMs.

Configuration

  • Utilisation de prompts pour guider les modèles linguistiques.
  • Hyperparamètres spécifiques pour le fine-tuning DPO en ligne et la compilation.

Métriques

  • Augmentation de l'exactitude de 20% pour un modèle et de 4 points de pourcentage pour un autre.
  • Comparaison des traces de raisonnement générées par le Flow avec celles générées directement par le modèle.

Résultats

  • Amélioration significative de la qualité des traces de raisonnement et des performances des LLMs.
  • Adaptabilité du Flow à différentes tailles de morceaux et tâches de raisonnement complexes.

Analyse Comparative

  • Comparaison des traces de raisonnement générées par le Flow avec les traces correctes générées par le modèle ou les données réelles.

Impact et Implications

L'étude démontre l'efficacité du Flow dans l'amélioration du raisonnement mathématique des LLMs, offrant des perspectives prometteuses pour l'optimisation des processus de formation et l'extension à d'autres domaines nécessitant des capacités de raisonnement sophistiquées.

Principaux Résultats

  • Génération de traces de raisonnement de haute qualité surpassant les méthodes traditionnelles.
  • Adaptabilité du Flow à diverses tâches de raisonnement complexe.

Limitations

  • Durée de fine-tuning relativement longue.
  • Besoin d'optimisation continue des hyperparamètres.

Directions Futures

  • Optimisation des processus de formation et augmentation des données.
  • Extension du Flow à d'autres domaines nécessitant des capacités de raisonnement sophistiquées.

Signification Pratique

  • Amélioration des performances des LLMs dans le raisonnement mathématique.
  • Potentiel d'application à d'autres domaines nécessitant des capacités de raisonnement avancées.

Articles en Vedette

DeepSeek-R1 : Encourager la capacité de raisonnement dans les LLMs via l'apprentissage par renforcement
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253745

Rapport technique de Qwen2.5
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436411

MiniMax-01 : Mise à l'échelle des modèles de base avec Attention Éclair.
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia WuJan 14, 20252846

PDF182November 16, 2024