FlowReasoner: Versterking van Meta-Agents op Queryniveau
FlowReasoner: Reinforcing Query-Level Meta-Agents
April 21, 2025
Auteurs: Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang
cs.AI
Samenvatting
Dit artikel introduceert een query-level meta-agent genaamd FlowReasoner om het ontwerp van query-level multi-agent systemen te automatiseren, d.w.z. één systeem per gebruikersquery. Onze kernidee is om een op redenering gebaseerde meta-agent te stimuleren via externe uitvoeringsfeedback. Concreet geven we FlowReasoner eerst een basisredeneervermogen met betrekking tot het genereren van multi-agent systemen door DeepSeek R1 te destilleren. Vervolgens versterken we dit verder via reinforcement learning (RL) met externe uitvoeringsfeedback. Een veelzijdige beloning is ontworpen om de RL-training te begeleiden vanuit het oogpunt van prestaties, complexiteit en efficiëntie. Op deze manier is FlowReasoner in staat om een gepersonaliseerd multi-agent systeem te genereren voor elke gebruikersquery via weloverwogen redenering. Experimenten op zowel technische als competitiecode benchmarks tonen de superioriteit van FlowReasoner aan. Opmerkelijk is dat het o1-mini met 10,52% nauwkeurigheid overtreft op drie benchmarks. De code is beschikbaar op https://github.com/sail-sg/FlowReasoner.
English
This paper proposes a query-level meta-agent named FlowReasoner to automate
the design of query-level multi-agent systems, i.e., one system per user query.
Our core idea is to incentivize a reasoning-based meta-agent via external
execution feedback. Concretely, by distilling DeepSeek R1, we first endow the
basic reasoning ability regarding the generation of multi-agent systems to
FlowReasoner. Then, we further enhance it via reinforcement learning (RL) with
external execution feedback. A multi-purpose reward is designed to guide the RL
training from aspects of performance, complexity, and efficiency. In this
manner, FlowReasoner is enabled to generate a personalized multi-agent system
for each user query via deliberative reasoning. Experiments on both engineering
and competition code benchmarks demonstrate the superiority of FlowReasoner.
Remarkably, it surpasses o1-mini by 10.52% accuracy across three benchmarks.
The code is available at https://github.com/sail-sg/FlowReasoner.Summary
AI-Generated Summary