Agents Web avec Modèles du Monde : Apprentissage et Exploitation de la Dynamique de l'Environnement dans la Navigation Web

Résumé

Les grands modèles de langage (LLM) ont récemment suscité beaucoup d'attention dans la création d'agents autonomes. Cependant, les performances des agents web actuels basés sur les LLM dans les tâches à long horizon sont loin d'être optimales, entraînant souvent des erreurs telles que l'achat répété d'un billet d'avion non remboursable. En revanche, les humains peuvent éviter une telle erreur irréversible, car nous avons une conscience des résultats potentiels (par exemple, la perte d'argent) de nos actions, également connue sous le nom de "modèle du monde". Motivée par cela, notre étude commence d'abord par des analyses préliminaires, confirmant l'absence de modèles du monde dans les LLM actuels (par exemple, GPT-4o, Claude-3.5-Sonnet, etc.). Ensuite, nous présentons un agent web augmenté d'un modèle du monde (WMA), qui simule les résultats de ses actions pour une meilleure prise de décision. Pour surmonter les défis liés à l'entraînement des LLM en tant que modèles du monde prédisant les prochaines observations, tels que des éléments répétés à travers les observations et de longues entrées HTML, nous proposons une abstraction d'observation axée sur la transition, où les objectifs de prédiction sont des descriptions en langage naturel libre mettant en évidence exclusivement les différences d'état importantes entre les étapes temporelles. Les expériences menées sur WebArena et Mind2Web montrent que nos modèles du monde améliorent la sélection des politiques des agents sans entraînement et démontrent l'efficacité en termes de coûts et de temps de nos agents par rapport aux agents récents basés sur la recherche arborescente.

English

Large language models (LLMs) have recently gained much attention in building autonomous agents. However, the performance of current LLM-based web agents in long-horizon tasks is far from optimal, often yielding errors such as repeatedly buying a non-refundable flight ticket. By contrast, humans can avoid such an irreversible mistake, as we have an awareness of the potential outcomes (e.g., losing money) of our actions, also known as the "world model". Motivated by this, our study first starts with preliminary analyses, confirming the absence of world models in current LLMs (e.g., GPT-4o, Claude-3.5-Sonnet, etc.). Then, we present a World-model-augmented (WMA) web agent, which simulates the outcomes of its actions for better decision-making. To overcome the challenges in training LLMs as world models predicting next observations, such as repeated elements across observations and long HTML inputs, we propose a transition-focused observation abstraction, where the prediction objectives are free-form natural language descriptions exclusively highlighting important state differences between time steps. Experiments on WebArena and Mind2Web show that our world models improve agents' policy selection without training and demonstrate our agents' cost- and time-efficiency compared to recent tree-search-based agents.

Agents Web avec Modèles du Monde : Apprentissage et Exploitation de la Dynamique de l'Environnement dans la Navigation Web

Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

Résumé

Support