Flow-DPO: Verbesserung der mathematischen Argumentation von LLM durch Online-Multi-Agenten-Lernen

Zusammenfassung

Mathematisches Argumentieren ist eine entscheidende Fähigkeit für große Sprachmodelle (LLMs), doch die Generierung detaillierter und präziser Argumentationsspuren bleibt eine bedeutende Herausforderung. Dieses Paper stellt einen neuartigen Ansatz vor, um hochwertige Argumentationsspuren für das Feinabstimmen von LLMs mithilfe von Online-Lernflüssen zu erzeugen. Unsere Methode nutzt einen inkrementellen Output-Produktionsfluss, in dem Komponenten-LLMs gemeinsam Lösungen durch iterative Kommunikation konstruieren. Wir trainieren den Fluss mithilfe des Online-Direktpräferenzoptimierungs-Lernens (DPO) mit Rollouts, generieren DPO-Paare für jedes Trainingsbeispiel und aktualisieren Modelle in Echtzeit. Wir vergleichen direkt die Qualität der durch unsere Methode generierten Argumentationsspuren mit denen, die durch direkte Modellinferenz erzeugt wurden, und zeigen die Wirksamkeit unseres Ansatzes bei der Verbesserung der Leistung von LLMs bei mathematischen Argumentationsaufgaben.

English

Mathematical reasoning is a crucial capability for Large Language Models (LLMs), yet generating detailed and accurate reasoning traces remains a significant challenge. This paper introduces a novel approach to produce high-quality reasoning traces for LLM fine-tuning using online learning Flows. Our method employs an incremental output production Flow, where component LLMs collaboratively construct solutions through iterative communication. We train the Flow using online Direct Preference Optimization (DPO) learning with rollouts, generating DPO pairs for each training example and updating models in real-time. We directly compare the quality of reasoning traces generated by our method with those produced through direct model inference, demonstrating the effectiveness of our approach in improving LLM performance in mathematical reasoning tasks.

Flow-DPO: Verbesserung der mathematischen Argumentation von LLM durch Online-Multi-Agenten-Lernen

Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning

Zusammenfassung

Summary

Support