Is jouw LLM stiekem een wereldmodel van het internet? Modelgebaseerde planning voor webagenten.
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents
November 10, 2024
Auteurs: Yu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su
cs.AI
Samenvatting
Taalagenten hebben veelbelovende mogelijkheden gedemonstreerd bij het automatiseren van webgebaseerde taken, hoewel hun huidige reactieve benaderingen nog steeds grotendeels onderpresteren in vergelijking met mensen. Door geavanceerde planningsalgoritmen, met name boomzoekmethoden, te integreren, zou de prestatie van deze agenten kunnen worden verbeterd, maar het direct implementeren van boomzoekacties op live websites brengt aanzienlijke veiligheidsrisico's en praktische beperkingen met zich mee vanwege onomkeerbare acties zoals het bevestigen van een aankoop. In dit artikel introduceren we een nieuw paradigma dat taalagenten verrijkt met op modellen gebaseerde planning, waarbij we het innovatieve gebruik van grote taalmodellen (LLM's) als wereldmodellen in complexe webomgevingen pionieren. Onze methode, WebDreamer, bouwt voort op het belangrijke inzicht dat LLM's inherent uitgebreide kennis coderen over websitestructuren en functionaliteiten. Specifiek gebruikt WebDreamer LLM's om resultaten te simuleren voor elke kandidaatactie (bijv. "wat zou er gebeuren als ik op deze knop klik?") met behulp van natuurlijke taalbeschrijvingen, en evalueert vervolgens deze voorgestelde resultaten om de optimale actie bij elke stap te bepalen. Empirische resultaten op twee representatieve webagentbenchmarks met online interactie - VisualWebArena en Mind2Web-live - tonen aan dat WebDreamer aanzienlijke verbeteringen behaalt ten opzichte van reactieve baselines. Door de levensvatbaarheid van LLM's als wereldmodellen in webomgevingen vast te stellen, legt dit werk de basis voor een paradigma verschuiving in geautomatiseerde webinteractie. Meer in het algemeen openen onze bevindingen spannende nieuwe wegen voor toekomstig onderzoek naar 1) het optimaliseren van LLM's specifiek voor wereldmodellering in complexe, dynamische omgevingen, en 2) op modellen gebaseerde speculatieve planning voor taalagenten.
English
Language agents have demonstrated promising capabilities in automating
web-based tasks, though their current reactive approaches still underperform
largely compared to humans. While incorporating advanced planning algorithms,
particularly tree search methods, could enhance these agents' performance,
implementing tree search directly on live websites poses significant safety
risks and practical constraints due to irreversible actions such as confirming
a purchase. In this paper, we introduce a novel paradigm that augments language
agents with model-based planning, pioneering the innovative use of large
language models (LLMs) as world models in complex web environments. Our method,
WebDreamer, builds on the key insight that LLMs inherently encode comprehensive
knowledge about website structures and functionalities. Specifically,
WebDreamer uses LLMs to simulate outcomes for each candidate action (e.g.,
"what would happen if I click this button?") using natural language
descriptions, and then evaluates these imagined outcomes to determine the
optimal action at each step. Empirical results on two representative web agent
benchmarks with online interaction -- VisualWebArena and Mind2Web-live --
demonstrate that WebDreamer achieves substantial improvements over reactive
baselines. By establishing the viability of LLMs as world models in web
environments, this work lays the groundwork for a paradigm shift in automated
web interaction. More broadly, our findings open exciting new avenues for
future research into 1) optimizing LLMs specifically for world modeling in
complex, dynamic environments, and 2) model-based speculative planning for
language agents.Summary
AI-Generated Summary