WebRL : Entraînement des Agents Web LLM via un Curriculum en Ligne Auto-Évolutif en Apprentissage par Renforcement
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
November 4, 2024
Auteurs: Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong
cs.AI
Résumé
Les grands modèles de langage (LLM) ont montré un potentiel remarquable en tant qu'agents autonomes, notamment dans les tâches basées sur le web. Cependant, les agents web LLM existants dépendent fortement de coûteuses API LLM propriétaires, tandis que les LLM ouverts manquent des capacités de prise de décision nécessaires. Cet article présente WebRL, un cadre d'apprentissage par renforcement de curriculum en ligne auto-évolutif conçu pour former des agents web performants en utilisant des LLM ouverts. WebRL aborde trois défis clés dans la construction d'agents web LLM, notamment la rareté des tâches d'entraînement, les signaux de rétroaction clairsemés et la dérive de la distribution des politiques dans l'apprentissage en ligne. Plus précisément, WebRL intègre 1) un curriculum auto-évolutif qui génère de nouvelles tâches à partir de tentatives infructueuses, 2) un modèle de récompense supervisée par résultat robuste (ORM), et 3) des stratégies adaptatives d'apprentissage par renforcement pour garantir des améliorations constantes. Nous appliquons WebRL pour transformer les modèles ouverts Llama-3.1 et GLM-4 en agents web compétents. Sur WebArena-Lite, WebRL améliore le taux de réussite de Llama-3.1-8B de 4,8% à 42,4%, et de 6,1% à 43% pour GLM-4-9B. Ces modèles ouverts surpassent significativement les performances de GPT-4-Turbo (17,6%) et GPT-4o (13,9%) et surpassent les précédents agents web de pointe entraînés sur des LLM ouverts (AutoWebGLM, 18,2%). Nos résultats démontrent l'efficacité de WebRL pour combler le fossé entre les agents web basés sur des LLM ouverts et propriétaires, ouvrant la voie à des systèmes d'interaction web autonomes plus accessibles et puissants.
English
Large language models (LLMs) have shown remarkable potential as autonomous
agents, particularly in web-based tasks. However, existing LLM web agents
heavily rely on expensive proprietary LLM APIs, while open LLMs lack the
necessary decision-making capabilities. This paper introduces WebRL, a
self-evolving online curriculum reinforcement learning framework designed to
train high-performance web agents using open LLMs. WebRL addresses three key
challenges in building LLM web agents, including the scarcity of training
tasks, sparse feedback signals, and policy distribution drift in online
learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that
generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised
reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure
consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4
models into proficient web agents. On WebArena-Lite, WebRL improves the success
rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B.
These open models significantly surpass the performance of GPT-4-Turbo (17.6%)
and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained
on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL's
effectiveness in bridging the gap between open and proprietary LLM-based web
agents, paving the way for more accessible and powerful autonomous web
interaction systems.Summary
AI-Generated Summary