Agents Web avec Modèles du Monde : Apprentissage et Exploitation de la Dynamique de l'Environnement dans la Navigation Web
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation
October 17, 2024
Auteurs: Hyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, Jinyoung Yeo
cs.AI
Résumé
Les grands modèles de langage (LLM) ont récemment suscité beaucoup d'attention dans la création d'agents autonomes. Cependant, les performances des agents web actuels basés sur les LLM dans les tâches à long horizon sont loin d'être optimales, entraînant souvent des erreurs telles que l'achat répété d'un billet d'avion non remboursable. En revanche, les humains peuvent éviter une telle erreur irréversible, car nous avons une conscience des résultats potentiels (par exemple, la perte d'argent) de nos actions, également connue sous le nom de "modèle du monde". Motivée par cela, notre étude commence d'abord par des analyses préliminaires, confirmant l'absence de modèles du monde dans les LLM actuels (par exemple, GPT-4o, Claude-3.5-Sonnet, etc.). Ensuite, nous présentons un agent web augmenté d'un modèle du monde (WMA), qui simule les résultats de ses actions pour une meilleure prise de décision. Pour surmonter les défis liés à l'entraînement des LLM en tant que modèles du monde prédisant les prochaines observations, tels que des éléments répétés à travers les observations et de longues entrées HTML, nous proposons une abstraction d'observation axée sur la transition, où les objectifs de prédiction sont des descriptions en langage naturel libre mettant en évidence exclusivement les différences d'état importantes entre les étapes temporelles. Les expériences menées sur WebArena et Mind2Web montrent que nos modèles du monde améliorent la sélection des politiques des agents sans entraînement et démontrent l'efficacité en termes de coûts et de temps de nos agents par rapport aux agents récents basés sur la recherche arborescente.
English
Large language models (LLMs) have recently gained much attention in building
autonomous agents. However, the performance of current LLM-based web agents in
long-horizon tasks is far from optimal, often yielding errors such as
repeatedly buying a non-refundable flight ticket. By contrast, humans can avoid
such an irreversible mistake, as we have an awareness of the potential outcomes
(e.g., losing money) of our actions, also known as the "world model". Motivated
by this, our study first starts with preliminary analyses, confirming the
absence of world models in current LLMs (e.g., GPT-4o, Claude-3.5-Sonnet,
etc.). Then, we present a World-model-augmented (WMA) web agent, which
simulates the outcomes of its actions for better decision-making. To overcome
the challenges in training LLMs as world models predicting next observations,
such as repeated elements across observations and long HTML inputs, we propose
a transition-focused observation abstraction, where the prediction objectives
are free-form natural language descriptions exclusively highlighting important
state differences between time steps. Experiments on WebArena and Mind2Web show
that our world models improve agents' policy selection without training and
demonstrate our agents' cost- and time-efficiency compared to recent
tree-search-based agents.Summary
AI-Generated Summary