Agent-R: Schulung von Sprachmodell-Agenten zur Reflexion durch iterative Selbstschulung
Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training
January 20, 2025
Autoren: Siyu Yuan, Zehui Chen, Zhiheng Xi, Junjie Ye, Zhengyin Du, Jiecao Chen
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) sind zunehmend entscheidend für die Bewältigung komplexer Aufgaben in interaktiven Umgebungen. Die bisherige Forschung konzentriert sich hauptsächlich darauf, die Leistung durch Verhaltensklonung von stärkeren Experten zu verbessern, doch solche Ansätze scheitern oft in realen Anwendungen, hauptsächlich aufgrund der Unfähigkeit, sich von Fehlern zu erholen. Die Erfassung von Schrittkritikdaten ist jedoch schwierig und teuer. Die Automatisierung und dynamische Erstellung von Selbstkritik-Datensätzen ist daher entscheidend, um Modelle mit intelligenten Agentenfähigkeiten auszustatten. In dieser Arbeit schlagen wir ein iteratives Selbstlern-Framework, Agent-R, vor, das es dem Sprachagenten ermöglicht, sich während des Fluges zu reflektieren. Im Gegensatz zu traditionellen Methoden, die Aktionen basierend auf Korrektheit belohnen oder bestrafen, nutzt Agent-R MCTS, um Trainingsdaten zu konstruieren, die korrekte Trajektorien aus fehlerhaften wiederherstellen. Eine zentrale Herausforderung der Agentenreflexion besteht in der Notwendigkeit einer zeitnahen Überarbeitung anstelle des Wartens bis zum Ende eines Rollouts. Um dies zu bewältigen, führen wir einen modellgeführten Kritik-Konstruktionsmechanismus ein: Das Aktorenmodell identifiziert den ersten Fehlerschritt (innerhalb seiner aktuellen Fähigkeit) in einer fehlgeschlagenen Trajektorie. Ausgehend davon wird er mit dem benachbarten korrekten Pfad verbunden, der denselben Elternknoten im Baum teilt. Diese Strategie ermöglicht es dem Modell, Reflexion basierend auf seiner aktuellen Richtlinie zu erlernen und somit eine bessere Lerneffizienz zu erzielen. Um die Skalierbarkeit dieses Selbstverbesserungsparadigmas weiter zu erforschen, untersuchen wir die iterative Verfeinerung sowohl der Fehlerkorrekturfähigkeiten als auch der Datensatzkonstruktion. Unsere Ergebnisse zeigen, dass Agent-R kontinuierlich die Fähigkeit des Modells verbessert, sich von Fehlern zu erholen, und eine zeitnahe Fehlerkorrektur ermöglicht. Experimente in drei interaktiven Umgebungen zeigen, dass Agent-R Agenten effektiv dazu befähigt, fehlerhafte Aktionen zu korrigieren, während Schleifen vermieden werden und eine überlegene Leistung im Vergleich zu Basismethoden erzielt wird (+5,59%).
English
Large Language Models (LLMs) agents are increasingly pivotal for addressing
complex tasks in interactive environments. Existing work mainly focuses on
enhancing performance through behavior cloning from stronger experts, yet such
approaches often falter in real-world applications, mainly due to the inability
to recover from errors. However, step-level critique data is difficult and
expensive to collect. Automating and dynamically constructing self-critique
datasets is thus crucial to empowering models with intelligent agent
capabilities. In this work, we propose an iterative self-training framework,
Agent-R, that enables language Agent to Reflect on the fly. Unlike traditional
methods that reward or penalize actions based on correctness, Agent-R leverages
MCTS to construct training data that recover correct trajectories from
erroneous ones. A key challenge of agent reflection lies in the necessity for
timely revision rather than waiting until the end of a rollout. To address
this, we introduce a model-guided critique construction mechanism: the actor
model identifies the first error step (within its current capability) in a
failed trajectory. Starting from it, we splice it with the adjacent correct
path, which shares the same parent node in the tree. This strategy enables the
model to learn reflection based on its current policy, therefore yielding
better learning efficiency. To further explore the scalability of this
self-improvement paradigm, we investigate iterative refinement of both error
correction capabilities and dataset construction. Our findings demonstrate that
Agent-R continuously improves the model's ability to recover from errors and
enables timely error correction. Experiments on three interactive environments
show that Agent-R effectively equips agents to correct erroneous actions while
avoiding loops, achieving superior performance compared to baseline methods
(+5.59%).Summary
AI-Generated Summary