WebRL: Het trainen van LLM-webagenten via een zelfevoluerend online curriculum Versterkend leren
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
November 4, 2024
Auteurs: Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben opmerkelijk potentieel getoond als autonome agenten, met name bij webgebaseerde taken. Bestaande LLM-webagenten vertrouwen echter zwaar op dure eigen LLM-API's, terwijl open LLM's de noodzakelijke besluitvormingscapaciteiten missen. Dit artikel introduceert WebRL, een zelfevoluerend online curriculumversterkend leerframework dat is ontworpen om hoogwaardige webagenten te trainen met behulp van open LLM's. WebRL pakt drie belangrijke uitdagingen aan bij het bouwen van LLM-webagenten, waaronder de schaarste aan trainings taken, schaarse feedbacksignalen en beleidsverdelingsafwijking bij online leren. Specifiek omvat WebRL 1) een zelfevoluerend curriculum dat nieuwe taken genereert uit onsuccesvolle pogingen, 2) een robuust uitkomstgesuperviseerd beloningsmodel (ORM), en 3) adaptieve versterkingsleerstrategieën om consistente verbeteringen te waarborgen. We passen WebRL toe om open Llama-3.1 en GLM-4 modellen om te vormen tot bekwame webagenten. Op WebArena-Lite verbetert WebRL het succespercentage van Llama-3.1-8B van 4,8% naar 42,4%, en van 6,1% naar 43% voor GLM-4-9B. Deze open modellen overtreffen aanzienlijk de prestaties van GPT-4-Turbo (17,6%) en GPT-4o (13,9%) en presteren beter dan eerdere state-of-the-art webagenten die zijn getraind op open LLM's (AutoWebGLM, 18,2%). Onze bevindingen tonen de effectiviteit van WebRL aan bij het overbruggen van de kloof tussen open en eigen LLM-gebaseerde webagenten, waardoor de weg wordt vrijgemaakt voor meer toegankelijke en krachtige autonome webinteractiesystemen.
English
Large language models (LLMs) have shown remarkable potential as autonomous
agents, particularly in web-based tasks. However, existing LLM web agents
heavily rely on expensive proprietary LLM APIs, while open LLMs lack the
necessary decision-making capabilities. This paper introduces WebRL, a
self-evolving online curriculum reinforcement learning framework designed to
train high-performance web agents using open LLMs. WebRL addresses three key
challenges in building LLM web agents, including the scarcity of training
tasks, sparse feedback signals, and policy distribution drift in online
learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that
generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised
reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure
consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4
models into proficient web agents. On WebArena-Lite, WebRL improves the success
rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B.
These open models significantly surpass the performance of GPT-4-Turbo (17.6%)
and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained
on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL's
effectiveness in bridging the gap between open and proprietary LLM-based web
agents, paving the way for more accessible and powerful autonomous web
interaction systems.Summary
AI-Generated Summary