WebRL: Het trainen van LLM-webagenten via een zelfevoluerend online curriculum Versterkend leren

Samenvatting

Grote taalmodellen (LLM's) hebben opmerkelijk potentieel getoond als autonome agenten, met name bij webgebaseerde taken. Bestaande LLM-webagenten vertrouwen echter zwaar op dure eigen LLM-API's, terwijl open LLM's de noodzakelijke besluitvormingscapaciteiten missen. Dit artikel introduceert WebRL, een zelfevoluerend online curriculumversterkend leerframework dat is ontworpen om hoogwaardige webagenten te trainen met behulp van open LLM's. WebRL pakt drie belangrijke uitdagingen aan bij het bouwen van LLM-webagenten, waaronder de schaarste aan trainings taken, schaarse feedbacksignalen en beleidsverdelingsafwijking bij online leren. Specifiek omvat WebRL 1) een zelfevoluerend curriculum dat nieuwe taken genereert uit onsuccesvolle pogingen, 2) een robuust uitkomstgesuperviseerd beloningsmodel (ORM), en 3) adaptieve versterkingsleerstrategieën om consistente verbeteringen te waarborgen. We passen WebRL toe om open Llama-3.1 en GLM-4 modellen om te vormen tot bekwame webagenten. Op WebArena-Lite verbetert WebRL het succespercentage van Llama-3.1-8B van 4,8% naar 42,4%, en van 6,1% naar 43% voor GLM-4-9B. Deze open modellen overtreffen aanzienlijk de prestaties van GPT-4-Turbo (17,6%) en GPT-4o (13,9%) en presteren beter dan eerdere state-of-the-art webagenten die zijn getraind op open LLM's (AutoWebGLM, 18,2%). Onze bevindingen tonen de effectiviteit van WebRL aan bij het overbruggen van de kloof tussen open en eigen LLM-gebaseerde webagenten, waardoor de weg wordt vrijgemaakt voor meer toegankelijke en krachtige autonome webinteractiesystemen.

English

Large language models (LLMs) have shown remarkable potential as autonomous agents, particularly in web-based tasks. However, existing LLM web agents heavily rely on expensive proprietary LLM APIs, while open LLMs lack the necessary decision-making capabilities. This paper introduces WebRL, a self-evolving online curriculum reinforcement learning framework designed to train high-performance web agents using open LLMs. WebRL addresses three key challenges in building LLM web agents, including the scarcity of training tasks, sparse feedback signals, and policy distribution drift in online learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4 models into proficient web agents. On WebArena-Lite, WebRL improves the success rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B. These open models significantly surpass the performance of GPT-4-Turbo (17.6%) and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL's effectiveness in bridging the gap between open and proprietary LLM-based web agents, paving the way for more accessible and powerful autonomous web interaction systems.

WebRL: Het trainen van LLM-webagenten via een zelfevoluerend online curriculum Versterkend leren

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

Samenvatting

Summary

Support