Flow-DPO: Verbesserung der mathematischen Argumentation von LLM durch Online-Multi-Agenten-Lernen
Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning
October 29, 2024
Autoren: Yihe Deng, Paul Mineiro
cs.AI
Zusammenfassung
Mathematisches Argumentieren ist eine entscheidende Fähigkeit für große Sprachmodelle (LLMs), doch die Generierung detaillierter und präziser Argumentationsspuren bleibt eine bedeutende Herausforderung. Dieses Paper stellt einen neuartigen Ansatz vor, um hochwertige Argumentationsspuren für das Feinabstimmen von LLMs mithilfe von Online-Lernflüssen zu erzeugen. Unsere Methode nutzt einen inkrementellen Output-Produktionsfluss, in dem Komponenten-LLMs gemeinsam Lösungen durch iterative Kommunikation konstruieren. Wir trainieren den Fluss mithilfe des Online-Direktpräferenzoptimierungs-Lernens (DPO) mit Rollouts, generieren DPO-Paare für jedes Trainingsbeispiel und aktualisieren Modelle in Echtzeit. Wir vergleichen direkt die Qualität der durch unsere Methode generierten Argumentationsspuren mit denen, die durch direkte Modellinferenz erzeugt wurden, und zeigen die Wirksamkeit unseres Ansatzes bei der Verbesserung der Leistung von LLMs bei mathematischen Argumentationsaufgaben.
English
Mathematical reasoning is a crucial capability for Large Language Models
(LLMs), yet generating detailed and accurate reasoning traces remains a
significant challenge. This paper introduces a novel approach to produce
high-quality reasoning traces for LLM fine-tuning using online learning
Flows. Our method employs an incremental output production Flow, where
component LLMs collaboratively construct solutions through iterative
communication. We train the Flow using online Direct Preference Optimization
(DPO) learning with rollouts, generating DPO pairs for each training example
and updating models in real-time. We directly compare the quality of reasoning
traces generated by our method with those produced through direct model
inference, demonstrating the effectiveness of our approach in improving LLM
performance in mathematical reasoning tasks.Summary
AI-Generated Summary