Agent-R: Het trainen van taalmodelagenten om te reflecteren via iteratieve zelftraining.

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

January 20, 2025
Auteurs: Siyu Yuan, Zehui Chen, Zhiheng Xi, Junjie Ye, Zhengyin Du, Jiecao Chen
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) zijn steeds belangrijker voor het aanpakken van complexe taken in interactieve omgevingen. Bestaand werk richt zich voornamelijk op het verbeteren van de prestaties door gedrag te klonen van sterkere experts, maar dergelijke benaderingen falen vaak in real-world toepassingen, voornamelijk vanwege het onvermogen om te herstellen van fouten. Echter, stapsgewijze kritiekdata is moeilijk en duur om te verzamelen. Het automatiseren en dynamisch construeren van zelfkritiekdatasets is daarom cruciaal om modellen te voorzien van intelligente agentcapaciteiten. In dit werk stellen we een iteratief zelftrainingskader voor, Agent-R, dat taalagenten in staat stelt om ter plekke te Reflecteren. In tegenstelling tot traditionele methoden die acties belonen of bestraffen op basis van juistheid, maakt Agent-R gebruik van MCTS om trainingsdata te construeren die correcte trajecten herstellen van foutieve trajecten. Een belangrijke uitdaging van agentreflectie ligt in de noodzaak voor tijdige herziening in plaats van te wachten tot het einde van een rollout. Om dit aan te pakken, introduceren we een modelgestuurd kritiekconstructiemechanisme: het actiemodel identificeert de eerste foutstap (binnen zijn huidige capaciteit) in een mislukt traject. Van daaruit splitsen we het met het aangrenzende juiste pad, dat dezelfde ouderknoop in de boom deelt. Deze strategie stelt het model in staat om reflectie te leren op basis van zijn huidige beleid, wat resulteert in een betere leerefficiëntie. Om verder de schaalbaarheid van dit zelfverbeteringsparadigma te verkennen, onderzoeken we iteratieve verfijning van zowel foutcorrectiecapaciteiten als datasetconstructie. Onze bevindingen tonen aan dat Agent-R continu de mogelijkheid van het model verbetert om te herstellen van fouten en tijdige foutcorrectie mogelijk maakt. Experimenten in drie interactieve omgevingen tonen aan dat Agent-R agenten effectief uitrust om foutieve acties te corrigeren en lussen te vermijden, met superieure prestaties in vergelijking met basismethoden (+5.59%).
English
Large Language Models (LLMs) agents are increasingly pivotal for addressing complex tasks in interactive environments. Existing work mainly focuses on enhancing performance through behavior cloning from stronger experts, yet such approaches often falter in real-world applications, mainly due to the inability to recover from errors. However, step-level critique data is difficult and expensive to collect. Automating and dynamically constructing self-critique datasets is thus crucial to empowering models with intelligent agent capabilities. In this work, we propose an iterative self-training framework, Agent-R, that enables language Agent to Reflect on the fly. Unlike traditional methods that reward or penalize actions based on correctness, Agent-R leverages MCTS to construct training data that recover correct trajectories from erroneous ones. A key challenge of agent reflection lies in the necessity for timely revision rather than waiting until the end of a rollout. To address this, we introduce a model-guided critique construction mechanism: the actor model identifies the first error step (within its current capability) in a failed trajectory. Starting from it, we splice it with the adjacent correct path, which shares the same parent node in the tree. This strategy enables the model to learn reflection based on its current policy, therefore yielding better learning efficiency. To further explore the scalability of this self-improvement paradigm, we investigate iterative refinement of both error correction capabilities and dataset construction. Our findings demonstrate that Agent-R continuously improves the model's ability to recover from errors and enables timely error correction. Experiments on three interactive environments show that Agent-R effectively equips agents to correct erroneous actions while avoiding loops, achieving superior performance compared to baseline methods (+5.59%).

Summary

AI-Generated Summary

PDF872January 22, 2025