Il tuo LLM è segretamente un Modello Mondiale di Internet? Pianificazione basata su modelli per agenti web

Abstract

Gli agenti linguistici hanno dimostrato capacità promettenti nell'automatizzazione di compiti basati sul web, anche se i loro attuali approcci reattivi sono ancora in larga parte meno performanti rispetto agli esseri umani. L'incorporazione di algoritmi di pianificazione avanzati, in particolare i metodi di ricerca ad albero, potrebbe migliorare le prestazioni di questi agenti, ma l'implementazione della ricerca ad albero direttamente su siti web live comporta significativi rischi di sicurezza e vincoli pratici a causa di azioni irreversibili come la conferma di un acquisto. In questo articolo, introduciamo un nuovo paradigma che potenzia gli agenti linguistici con la pianificazione basata su modelli, inaugurando l'uso innovativo di grandi modelli linguistici (LLM) come modelli del mondo in ambienti web complessi. Il nostro metodo, WebDreamer, si basa sull'idea chiave che i LLM codificano intrinsecamente conoscenze approfondite sulla struttura e le funzionalità dei siti web. In particolare, WebDreamer utilizza i LLM per simulare gli esiti di ciascuna azione candidata (ad esempio, "cosa succederebbe se cliccassi su questo pulsante?") utilizzando descrizioni in linguaggio naturale, per poi valutare questi esiti immaginati al fine di determinare l'azione ottimale in ciascun passo. I risultati empirici su due benchmark rappresentativi degli agenti web con interazione online - VisualWebArena e Mind2Web-live - dimostrano che WebDreamer ottiene miglioramenti sostanziali rispetto alle basi reattive. Stabilendo la validità dei LLM come modelli del mondo negli ambienti web, questo lavoro getta le basi per un cambiamento di paradigma nell'interazione web automatizzata. Più ampiamente, le nostre scoperte aprono nuove e entusiasmanti strade per la ricerca futura nell'ottimizzazione dei LLM specificamente per la modellazione del mondo in ambienti complessi e dinamici, e nella pianificazione speculativa basata su modelli per gli agenti linguistici.

English

Language agents have demonstrated promising capabilities in automating web-based tasks, though their current reactive approaches still underperform largely compared to humans. While incorporating advanced planning algorithms, particularly tree search methods, could enhance these agents' performance, implementing tree search directly on live websites poses significant safety risks and practical constraints due to irreversible actions such as confirming a purchase. In this paper, we introduce a novel paradigm that augments language agents with model-based planning, pioneering the innovative use of large language models (LLMs) as world models in complex web environments. Our method, WebDreamer, builds on the key insight that LLMs inherently encode comprehensive knowledge about website structures and functionalities. Specifically, WebDreamer uses LLMs to simulate outcomes for each candidate action (e.g., "what would happen if I click this button?") using natural language descriptions, and then evaluates these imagined outcomes to determine the optimal action at each step. Empirical results on two representative web agent benchmarks with online interaction -- VisualWebArena and Mind2Web-live -- demonstrate that WebDreamer achieves substantial improvements over reactive baselines. By establishing the viability of LLMs as world models in web environments, this work lays the groundwork for a paradigm shift in automated web interaction. More broadly, our findings open exciting new avenues for future research into 1) optimizing LLMs specifically for world modeling in complex, dynamic environments, and 2) model-based speculative planning for language agents.

Il tuo LLM è segretamente un Modello Mondiale di Internet? Pianificazione basata su modelli per agenti web

Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents

Abstract

Summary

Support