OpenWebVoyager: 반복적인 현실 세계 탐사, 피드백 및 최적화를 통해 다중 모달 웹 에이전트 구축

OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

October 25, 2024
저자: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Hongming Zhang, Tianqing Fang, Zhenzhong Lan, Dong Yu
cs.AI

초록

대규모 언어 및 다중 모달 모델의 신속한 발전은 GPT-4o와 같은 전용 모델을 활용하여 웹 탐색과 같은 현실 세계 시나리오를 처리할 수 있는 자율 에이전트를 개발하는 데 상당한 관심을 불러일으켰다. 최근의 오픈 소스 노력은 환경 탐색 능력을 갖춘 에이전트를 지속적으로 향상시키려고 노력해왔지만, 이들은 보상 신호가 명확히 정의된 합성 환경에서 텍스트 전용 에이전트를 구축하고 있다. 이러한 에이전트들은 다중 모달 지각 능력이 필요한 현실적인 환경으로의 일반화에 어려움을 겪으며, 지면 신호가 부족하다. 본 논문에서는 자율적으로 현실 세계 탐사를 수행하고 스스로를 향상시킬 수 있는 다중 모달 웹 에이전트의 개발을 용이하게 하는 오픈 소스 프레임워크를 소개한다. 우리는 먼저 기본 능력을 습득하기 위해 모방 학습으로 기본 모델을 훈련시킨다. 그런 다음, 에이전트에게 오픈 웹을 탐색하고 궤적에 대한 피드백을 수집하게 한다. 그 후, 다른 일반 목적 모델에 의해 평가된 성능이 우수한 궤적으로부터 학습하여 정책을 더 개선한다. 이 탐사-피드백-최적화 주기는 여러 번 반복될 수 있다. 실험 결과는 우리의 웹 에이전트가 각 반복 후에 스스로를 성공적으로 향상시키며, 여러 테스트 세트에서 강력한 성능을 보여준다.
English
The rapid development of large language and multimodal models has sparked significant interest in using proprietary models, such as GPT-4o, to develop autonomous agents capable of handling real-world scenarios like web navigation. Although recent open-source efforts have tried to equip agents with the ability to explore environments and continuously improve over time, they are building text-only agents in synthetic environments where the reward signals are clearly defined. Such agents struggle to generalize to realistic settings that require multimodal perception abilities and lack ground-truth signals. In this paper, we introduce an open-source framework designed to facilitate the development of multimodal web agent that can autonomously conduct real-world exploration and improve itself. We first train the base model with imitation learning to gain the basic abilities. We then let the agent explore the open web and collect feedback on its trajectories. After that, it further improves its policy by learning from well-performing trajectories judged by another general-purpose model. This exploration-feedback-optimization cycle can continue for several iterations. Experimental results show that our web agent successfully improves itself after each iteration, demonstrating strong performance across multiple test sets.

Summary

AI-Generated Summary

PDF162November 16, 2024