Ist Ihr LLM heimlich ein Weltmodell des Internets? Modellbasierte Planung für Web-Agenten.
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents
November 10, 2024
Autoren: Yu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su
cs.AI
Zusammenfassung
Sprachagenten haben vielversprechende Fähigkeiten bei der Automatisierung von webbasierten Aufgaben gezeigt, obwohl ihre aktuellen reaktiven Ansätze im Vergleich zu Menschen immer noch weitgehend unterlegen sind. Die Integration fortschrittlicher Planungsalgorithmen, insbesondere Baum-Suchmethoden, könnte die Leistung dieser Agenten verbessern, jedoch stellen direkte Implementierungen von Baum-Suchen auf Live-Websites aufgrund von nicht umkehrbaren Aktionen wie dem Bestätigen eines Kaufs erhebliche Sicherheitsrisiken und praktische Einschränkungen dar. In diesem Artikel stellen wir ein neuartiges Paradigma vor, das Sprachagenten mit modellbasierter Planung ergänzt und die innovative Verwendung großer Sprachmodelle (LLMs) als Weltmodelle in komplexen Webumgebungen vorantreibt. Unsere Methode, WebDreamer, baut auf der Erkenntnis auf, dass LLMs umfassendes Wissen über Website-Strukturen und -Funktionalitäten inhärent codieren. Konkret verwendet WebDreamer LLMs, um Ergebnisse für jede Kandidatenaktion zu simulieren (z. B. "Was passiert, wenn ich auf diese Schaltfläche klicke?") mithilfe von natürlichsprachlichen Beschreibungen und bewertet dann diese vorgestellten Ergebnisse, um die optimale Aktion in jedem Schritt zu bestimmen. Empirische Ergebnisse zu zwei repräsentativen Webagenten-Benchmarks mit Online-Interaktion - VisualWebArena und Mind2Web-live - zeigen, dass WebDreamer signifikante Verbesserungen gegenüber reaktiven Baselines erzielt. Durch die Feststellung der Machbarkeit von LLMs als Weltmodelle in Webumgebungen legt diese Arbeit den Grundstein für einen Paradigmenwechsel in der automatisierten Webinteraktion. Allgemeiner betrachtet eröffnen unsere Ergebnisse spannende neue Wege für zukünftige Forschung in 1) die Optimierung von LLMs speziell für das Weltmodellieren in komplexen, dynamischen Umgebungen und 2) die modellbasierte spekulative Planung für Sprachagenten.
English
Language agents have demonstrated promising capabilities in automating
web-based tasks, though their current reactive approaches still underperform
largely compared to humans. While incorporating advanced planning algorithms,
particularly tree search methods, could enhance these agents' performance,
implementing tree search directly on live websites poses significant safety
risks and practical constraints due to irreversible actions such as confirming
a purchase. In this paper, we introduce a novel paradigm that augments language
agents with model-based planning, pioneering the innovative use of large
language models (LLMs) as world models in complex web environments. Our method,
WebDreamer, builds on the key insight that LLMs inherently encode comprehensive
knowledge about website structures and functionalities. Specifically,
WebDreamer uses LLMs to simulate outcomes for each candidate action (e.g.,
"what would happen if I click this button?") using natural language
descriptions, and then evaluates these imagined outcomes to determine the
optimal action at each step. Empirical results on two representative web agent
benchmarks with online interaction -- VisualWebArena and Mind2Web-live --
demonstrate that WebDreamer achieves substantial improvements over reactive
baselines. By establishing the viability of LLMs as world models in web
environments, this work lays the groundwork for a paradigm shift in automated
web interaction. More broadly, our findings open exciting new avenues for
future research into 1) optimizing LLMs specifically for world modeling in
complex, dynamic environments, and 2) model-based speculative planning for
language agents.Summary
AI-Generated Summary