Votre LLM est-il secrètement un modèle mondial de l'Internet ? Planification basée sur des modèles pour les agents web
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents
November 10, 2024
Auteurs: Yu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su
cs.AI
Résumé
Les agents linguistiques ont démontré des capacités prometteuses dans l'automatisation des tâches basées sur le web, bien que leurs approches réactives actuelles sous-performent largement par rapport aux humains. En incorporant des algorithmes de planification avancés, en particulier des méthodes de recherche arborescente, on pourrait améliorer les performances de ces agents. Cependant, mettre en œuvre la recherche arborescente directement sur des sites web en direct présente des risques de sécurité significatifs et des contraintes pratiques en raison d'actions irréversibles telles que la confirmation d'un achat. Dans cet article, nous introduisons un nouveau paradigme qui augmente les agents linguistiques avec une planification basée sur des modèles, pionnier dans l'utilisation innovante des grands modèles linguistiques (LLM) en tant que modèles du monde dans des environnements web complexes. Notre méthode, WebDreamer, s'appuie sur l'observation clé selon laquelle les LLM codent intrinsèquement des connaissances complètes sur les structures et les fonctionnalités des sites web. Plus précisément, WebDreamer utilise les LLM pour simuler les résultats de chaque action candidate (par exemple, "que se passerait-il si je cliquais sur ce bouton ?") en utilisant des descriptions en langage naturel, puis évalue ces résultats imaginés pour déterminer l'action optimale à chaque étape. Les résultats empiriques sur deux benchmarks d'agents web représentatifs avec interaction en ligne - VisualWebArena et Mind2Web-live - démontrent que WebDreamer obtient des améliorations substantielles par rapport aux bases réactives. En établissant la viabilité des LLM en tant que modèles du monde dans les environnements web, ce travail pose les bases d'un changement de paradigme dans l'interaction web automatisée. Plus largement, nos résultats ouvrent de nouvelles perspectives passionnantes pour la recherche future dans 1) l'optimisation des LLM spécifiquement pour la modélisation du monde dans des environnements complexes et dynamiques, et 2) la planification spéculative basée sur des modèles pour les agents linguistiques.
English
Language agents have demonstrated promising capabilities in automating
web-based tasks, though their current reactive approaches still underperform
largely compared to humans. While incorporating advanced planning algorithms,
particularly tree search methods, could enhance these agents' performance,
implementing tree search directly on live websites poses significant safety
risks and practical constraints due to irreversible actions such as confirming
a purchase. In this paper, we introduce a novel paradigm that augments language
agents with model-based planning, pioneering the innovative use of large
language models (LLMs) as world models in complex web environments. Our method,
WebDreamer, builds on the key insight that LLMs inherently encode comprehensive
knowledge about website structures and functionalities. Specifically,
WebDreamer uses LLMs to simulate outcomes for each candidate action (e.g.,
"what would happen if I click this button?") using natural language
descriptions, and then evaluates these imagined outcomes to determine the
optimal action at each step. Empirical results on two representative web agent
benchmarks with online interaction -- VisualWebArena and Mind2Web-live --
demonstrate that WebDreamer achieves substantial improvements over reactive
baselines. By establishing the viability of LLMs as world models in web
environments, this work lays the groundwork for a paradigm shift in automated
web interaction. More broadly, our findings open exciting new avenues for
future research into 1) optimizing LLMs specifically for world modeling in
complex, dynamic environments, and 2) model-based speculative planning for
language agents.Summary
AI-Generated Summary