ChatPaper.aiChatPaper

Agentenmodelle: Internalisierung der Handlungsketten-Generierung in Reasoning-Modelle

Agent models: Internalizing Chain-of-Action Generation into Reasoning models

March 9, 2025
Autoren: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang
cs.AI

Zusammenfassung

Traditionelle agentenbasierte Workflows verlassen sich auf externe Aufforderungen, um die Interaktionen mit Werkzeugen und der Umgebung zu steuern, was die Autonomie von Reasoning-Modellen einschränkt. Wir positionieren Large Agent Models (LAMs), die die Generierung von Chain-of-Action (CoA) internalisieren, wodurch das Modell autonom entscheiden kann, wann und wie es externe Werkzeuge nutzt. Unser vorgeschlagenes AutoCoA-Framework kombiniert Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL), sodass das Modell nahtlos zwischen Reasoning und Aktion wechseln kann, während es Umgebungsinteraktionen effizient verwaltet. Zu den Hauptkomponenten gehören die schrittweise Auslösung von Aktionen, die trajektorienbasierte CoA-Optimierung und ein internes Weltmodell, um die Kosten für Interaktionen mit der realen Umgebung zu reduzieren. Evaluierungen auf Open-Domain-QA-Aufgaben zeigen, dass mit AutoCoA trainierte Agentenmodelle ReAct-basierte Workflows bei der Aufgabenbewältigung deutlich übertreffen, insbesondere bei Aufgaben, die langfristiges Reasoning und mehrstufige Aktionen erfordern. Code und Datensätze sind verfügbar unter https://github.com/ADaM-BJTU/AutoCoA.
English
Traditional agentic workflows rely on external prompts to manage interactions with tools and the environment, which limits the autonomy of reasoning models. We position Large Agent Models (LAMs) that internalize the generation of Chain-of-Action (CoA), enabling the model to autonomously decide when and how to use external tools. Our proposed AutoCoA framework combines supervised fine-tuning (SFT) and reinforcement learning (RL), allowing the model to seamlessly switch between reasoning and action while efficiently managing environment interactions. Main components include step-level action triggering, trajectory-level CoA optimization, and an internal world model to reduce real-environment interaction costs. Evaluations on open-domain QA tasks demonstrate that AutoCoA-trained agent models significantly outperform ReAct-based workflows in task completion, especially in tasks that require long-term reasoning and multi-step actions. Code and dataset are available at https://github.com/ADaM-BJTU/AutoCoA

Summary

AI-Generated Summary

PDF163March 11, 2025