WebRL: Training von LLM Web Agents über selbst-evolvierendes Online-Lehrplanverfahren Verstärkendes Lernen
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
November 4, 2024
Autoren: Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben ein bemerkenswertes Potenzial als autonome Agenten gezeigt, insbesondere bei webbasierten Aufgaben. Allerdings sind bestehende LLM-Webagenten stark auf teure proprietäre LLM-APIs angewiesen, während offene LLMs über die erforderlichen Entscheidungsfähigkeiten nicht verfügen. Dieser Artikel stellt WebRL vor, ein selbstentwickelndes Online-Lehrplan-Verstärkungslernframework, das darauf abzielt, leistungsstarke Webagenten unter Verwendung offener LLMs zu trainieren. WebRL begegnet drei zentralen Herausforderungen beim Aufbau von LLM-Webagenten, darunter die Knappheit von Trainingsaufgaben, spärliche Rückmeldesignale und die Drift der Richtlinienverteilung beim Online-Lernen. Konkret integriert WebRL 1) einen selbstentwickelnden Lehrplan, der neue Aufgaben aus erfolglosen Versuchen generiert, 2) ein robustes ergebnisüberwachtes Belohnungsmodell (ORM) und 3) adaptive Verstärkungslernstrategien, um kontinuierliche Verbesserungen sicherzustellen. Wir wenden WebRL an, um offene Llama-3.1- und GLM-4-Modelle in versierte Webagenten zu verwandeln. Auf WebArena-Lite verbessert WebRL die Erfolgsquote von Llama-3.1-8B von 4,8 % auf 42,4 % und von 6,1 % auf 43 % für GLM-4-9B. Diese offenen Modelle übertreffen signifikant die Leistung von GPT-4-Turbo (17,6 %) und GPT-4o (13,9 %) und übertrumpfen bisherige Spitzenleistungen von Webagenten, die auf offenen LLMs trainiert wurden (AutoWebGLM, 18,2 %). Unsere Ergebnisse zeigen die Wirksamkeit von WebRL bei der Überbrückung der Kluft zwischen offenen und proprietären LLM-basierten Webagenten auf und ebnet den Weg für zugänglichere und leistungsstärkere autonome Webinteraktionssysteme.
English
Large language models (LLMs) have shown remarkable potential as autonomous
agents, particularly in web-based tasks. However, existing LLM web agents
heavily rely on expensive proprietary LLM APIs, while open LLMs lack the
necessary decision-making capabilities. This paper introduces WebRL, a
self-evolving online curriculum reinforcement learning framework designed to
train high-performance web agents using open LLMs. WebRL addresses three key
challenges in building LLM web agents, including the scarcity of training
tasks, sparse feedback signals, and policy distribution drift in online
learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that
generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised
reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure
consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4
models into proficient web agents. On WebArena-Lite, WebRL improves the success
rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B.
These open models significantly surpass the performance of GPT-4-Turbo (17.6%)
and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained
on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL's
effectiveness in bridging the gap between open and proprietary LLM-based web
agents, paving the way for more accessible and powerful autonomous web
interaction systems.Summary
AI-Generated Summary