탐색기: 멀티모달 웹 에이전트를 위한 탐색 기반 웹 궤적 합성의 확장
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents
February 17, 2025
저자: Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah
cs.AI
초록
최근 대규모 멀티모달 모델(LMM)의 성공은 복잡한 웹 작업을 자율적으로 완수할 수 있는 에이전트의 유망한 응용 가능성을 보여주었습니다. 오픈소스 LMM 에이전트는 오프라인 평가 벤치마크에서 상당한 진전을 이루었지만, 보다 현실적인 온라인 환경에서는 여전히 인간 수준의 능력에 크게 미치지 못하고 있습니다. 주요 병목 현상은 다양한 도메인에 걸친 대규모 궤적 수준 데이터셋의 부재인데, 이러한 데이터를 수집하는 데는 비용이 많이 듭니다. 본 논문에서는 이 문제를 해결하기 위해 지금까지 가장 크고 다양한 궤적 수준 데이터셋을 합성하는 확장 가능한 방법을 개발했습니다. 이 데이터셋은 49K개의 고유 URL, 720K개의 스크린샷, 33M개의 웹 요소를 포함하는 94K개 이상의 성공적인 멀티모달 웹 궤적으로 구성되어 있습니다. 특히, 다양한 작업 의도를 얻기 위해 광범위한 웹 탐색과 정제 과정을 활용했습니다. 성공적인 궤적당 평균 비용은 28센트로, 커뮤니티 내 다양한 사용자들이 부담 없이 이용할 수 있습니다. 이 데이터셋을 활용하여 멀티모달 웹 에이전트인 Explorer를 훈련시켰으며, Mind2Web-Live, Multimodal-Mind2Web, MiniWob++와 같은 오프라인 및 온라인 웹 에이전트 벤치마크에서 강력한 성능을 입증했습니다. 또한, 우리의 실험은 데이터 확장이 웹 에이전트 능력 향상의 주요 동인임을 강조합니다. 이 연구가 대규모 LMM 기반 에이전트 연구를 보다 접근 가능하게 만들기를 기대합니다.
English
Recent success in large multimodal models (LMMs) has sparked promising
applications of agents capable of autonomously completing complex web tasks.
While open-source LMM agents have made significant advances in offline
evaluation benchmarks, their performance still falls substantially short of
human-level capabilities in more realistic online settings. A key bottleneck is
the lack of diverse and large-scale trajectory-level datasets across various
domains, which are expensive to collect. In this paper, we address this
challenge by developing a scalable recipe to synthesize the largest and most
diverse trajectory-level dataset to date, containing over 94K successful
multimodal web trajectories, spanning 49K unique URLs, 720K screenshots, and
33M web elements. In particular, we leverage extensive web exploration and
refinement to obtain diverse task intents. The average cost is 28 cents per
successful trajectory, making it affordable to a wide range of users in the
community. Leveraging this dataset, we train Explorer, a multimodal web agent,
and demonstrate strong performance on both offline and online web agent
benchmarks such as Mind2Web-Live, Multimodal-Mind2Web, and MiniWob++.
Additionally, our experiments highlight data scaling as a key driver for
improving web agent capabilities. We hope this study makes state-of-the-art
LMM-based agent research at a larger scale more accessible.Summary
AI-Generated Summary