웹 에이전트와 월드 모델: 웹 탐색에서 환경 역학 학습과 활용
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation
October 17, 2024
저자: Hyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, Jinyoung Yeo
cs.AI
초록
최근 대형 언어 모델(LLM)은 자율 에이전트를 구축하는 데 많은 관심을 받았습니다. 그러나 현재의 LLM 기반 웹 에이전트의 성능은 장기적인 과제에서 최적이 아니며 종종 환불이 불가능한 항공권을 반복 구매하는 등의 오류를 일으킵니다. 반면 인간은 이러한 돌이킬 수 없는 실수를 피할 수 있습니다. 왜냐하면 우리는 행동의 잠재적 결과(예: 돈을 잃는 것)를 인식하는 "세계 모델"을 갖고 있기 때문입니다. 이에 동기부여를 받아, 우리의 연구는 먼저 현재의 LLM(예: GPT-4o, Claude-3.5-Sonnet 등)에서 세계 모델의 부재를 확인하는 예비 분석으로 시작합니다. 그런 다음, 행동의 결과를 시뮬레이션하여 더 나은 의사 결정을 내리기 위한 세계 모델 보강(WMA) 웹 에이전트를 제시합니다. 다음 관측을 예측하는 세계 모델로 LLM을 훈련하는 데 어려움을 극복하기 위해, 관측 간 반복 요소 및 긴 HTML 입력과 같은 도전을 극복하기 위해, 시간 단계 간 중요한 상태 차이를 강조하는 자유 형식의 자연어 설명에 중점을 둔 전이 중심 관측 추상화를 제안합니다. WebArena 및 Mind2Web에서의 실험 결과, 우리의 세계 모델이 에이전트의 정책 선택을 개선하고 최근의 트리 탐색 기반 에이전트와 비교하여 에이전트의 비용 및 시간 효율성을 입증합니다.
English
Large language models (LLMs) have recently gained much attention in building
autonomous agents. However, the performance of current LLM-based web agents in
long-horizon tasks is far from optimal, often yielding errors such as
repeatedly buying a non-refundable flight ticket. By contrast, humans can avoid
such an irreversible mistake, as we have an awareness of the potential outcomes
(e.g., losing money) of our actions, also known as the "world model". Motivated
by this, our study first starts with preliminary analyses, confirming the
absence of world models in current LLMs (e.g., GPT-4o, Claude-3.5-Sonnet,
etc.). Then, we present a World-model-augmented (WMA) web agent, which
simulates the outcomes of its actions for better decision-making. To overcome
the challenges in training LLMs as world models predicting next observations,
such as repeated elements across observations and long HTML inputs, we propose
a transition-focused observation abstraction, where the prediction objectives
are free-form natural language descriptions exclusively highlighting important
state differences between time steps. Experiments on WebArena and Mind2Web show
that our world models improve agents' policy selection without training and
demonstrate our agents' cost- and time-efficiency compared to recent
tree-search-based agents.Summary
AI-Generated Summary