당신의 LLM이 비밀리에 인터넷의 세계 모델인가요? 웹 에이전트를 위한 모델 기반 계획
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents
November 10, 2024
저자: Yu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su
cs.AI
초록
언어 에이전트는 웹 기반 작업을 자동화하는 데 유망한 능력을 보여주었지만, 현재의 반응적 접근은 여전히 인간에 비해 대부분 성능이 떨어집니다. 특히 트리 탐색 방법과 같은 고급 계획 알고리즘을 통합함으로써 이러한 에이전트의 성능을 향상시킬 수 있지만, 실제 웹 사이트에서 트리 탐색을 직접 구현하는 것은 구매 확인과 같은 불가역적인 작업으로 인해 중대한 안전 위험과 실용적 제약이 있습니다. 본 논문에서는 언어 에이전트를 모델 기반 계획으로 보완하는 새로운 패러다임을 소개하며, 복잡한 웹 환경에서 대규모 언어 모델 (LLM)을 세계 모델로 혁신적으로 활용합니다. 우리의 방법인 WebDreamer는 LLM이 웹 사이트 구조와 기능에 대한 포괄적인 지식을 내재적으로 부호화한다는 주요 통찰에 기반합니다. 구체적으로, WebDreamer는 LLM을 사용하여 각 후보 작업에 대한 결과를 시뮬레이션하고(예: "이 버튼을 클릭하면 어떻게 될까?") 자연어 설명을 사용하여 이러한 상상된 결과를 평가하여 각 단계에서 최적의 작업을 결정합니다. 온라인 상호작용이 포함된 두 대표적인 웹 에이전트 벤치마크인 VisualWebArena와 Mind2Web-live에서의 경험적 결과는 WebDreamer가 반응적인 기준에 비해 상당한 향상을 이룬다는 것을 입증합니다. LLM을 웹 환경에서 세계 모델로 사용 가능하게 함으로써, 본 연구는 자동화된 웹 상호작용에서 패러다임 변화의 기초를 마련합니다. 더 넓게는, 우리의 발견은 1) 복잡하고 동적인 환경에서 LLM을 위해 특별히 최적화하는 연구 및 2) 언어 에이전트를 위한 모델 기반 사양 계획에 대한 미래 연구를 위한 흥미로운 새로운 방향을 열어줍니다.
English
Language agents have demonstrated promising capabilities in automating
web-based tasks, though their current reactive approaches still underperform
largely compared to humans. While incorporating advanced planning algorithms,
particularly tree search methods, could enhance these agents' performance,
implementing tree search directly on live websites poses significant safety
risks and practical constraints due to irreversible actions such as confirming
a purchase. In this paper, we introduce a novel paradigm that augments language
agents with model-based planning, pioneering the innovative use of large
language models (LLMs) as world models in complex web environments. Our method,
WebDreamer, builds on the key insight that LLMs inherently encode comprehensive
knowledge about website structures and functionalities. Specifically,
WebDreamer uses LLMs to simulate outcomes for each candidate action (e.g.,
"what would happen if I click this button?") using natural language
descriptions, and then evaluates these imagined outcomes to determine the
optimal action at each step. Empirical results on two representative web agent
benchmarks with online interaction -- VisualWebArena and Mind2Web-live --
demonstrate that WebDreamer achieves substantial improvements over reactive
baselines. By establishing the viability of LLMs as world models in web
environments, this work lays the groundwork for a paradigm shift in automated
web interaction. More broadly, our findings open exciting new avenues for
future research into 1) optimizing LLMs specifically for world modeling in
complex, dynamic environments, and 2) model-based speculative planning for
language agents.Summary
AI-Generated Summary