WebRL: Addestramento degli Agenti Web LLM tramite un Curriculum Online Auto-evolutivo basato sull'Apprendimento per Rinforzo

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

November 4, 2024
Autori: Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno mostrato un notevole potenziale come agenti autonomi, in particolare nelle attività basate sul web. Tuttavia, gli attuali agenti web LLM dipendono pesantemente da costose API LLM proprietarie, mentre i LLM aperti mancano delle necessarie capacità decisionali. Questo articolo introduce WebRL, un framework di apprendimento per rinforzo con curriculum online auto-evolutivo progettato per addestrare agenti web ad alte prestazioni utilizzando LLM aperti. WebRL affronta tre sfide chiave nella costruzione di agenti web LLM, tra cui la scarsità di compiti di addestramento, i segnali di feedback sparsi e la deriva della distribuzione delle politiche nell'apprendimento online. In particolare, WebRL incorpora 1) un curriculum auto-evolutivo che genera nuovi compiti dai tentativi non riusciti, 2) un modello di ricompensa supervisionato da risultati robusto (ORM) e 3) strategie di apprendimento per rinforzo adattive per garantire miglioramenti costanti. Applichiamo WebRL per trasformare i modelli aperti Llama-3.1 e GLM-4 in agenti web competenti. Su WebArena-Lite, WebRL migliora il tasso di successo di Llama-3.1-8B dal 4,8% al 42,4% e da 6,1% al 43% per GLM-4-9B. Questi modelli aperti superano significativamente le prestazioni di GPT-4-Turbo (17,6%) e GPT-4o (13,9%) e superano i precedenti agenti web all'avanguardia addestrati su LLM aperti (AutoWebGLM, 18,2%). I nostri risultati dimostrano l'efficacia di WebRL nel colmare il divario tra agenti web basati su LLM aperti e proprietari, aprendo la strada a sistemi di interazione web autonomi più accessibili e potenti.
English
Large language models (LLMs) have shown remarkable potential as autonomous agents, particularly in web-based tasks. However, existing LLM web agents heavily rely on expensive proprietary LLM APIs, while open LLMs lack the necessary decision-making capabilities. This paper introduces WebRL, a self-evolving online curriculum reinforcement learning framework designed to train high-performance web agents using open LLMs. WebRL addresses three key challenges in building LLM web agents, including the scarcity of training tasks, sparse feedback signals, and policy distribution drift in online learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4 models into proficient web agents. On WebArena-Lite, WebRL improves the success rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B. These open models significantly surpass the performance of GPT-4-Turbo (17.6%) and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL's effectiveness in bridging the gap between open and proprietary LLM-based web agents, paving the way for more accessible and powerful autonomous web interaction systems.

Summary

AI-Generated Summary

PDF341November 13, 2024