OpenWebVoyager: Het bouwen van multimodale webagenten via iteratieve verkenning, feedback en optimalisatie in de echte wereld.

OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

October 25, 2024
Auteurs: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Hongming Zhang, Tianqing Fang, Zhenzhong Lan, Dong Yu
cs.AI

Samenvatting

De snelle ontwikkeling van grote taal- en multimodale modellen heeft aanzienlijke interesse gewekt in het gebruik van eigen modellen, zoals GPT-4o, om autonome agenten te ontwikkelen die in staat zijn om realistische scenario's zoals webnavigatie aan te pakken. Hoewel recente open-source inspanningen hebben geprobeerd om agenten uit te rusten met de mogelijkheid om omgevingen te verkennen en zich in de loop van de tijd voortdurend te verbeteren, bouwen ze tekstuele agenten in synthetische omgevingen waar de beloningsignalen duidelijk gedefinieerd zijn. Dergelijke agenten hebben moeite om te generaliseren naar realistische omgevingen die multimodale perceptievaardigheden vereisen en waarbij grondwaarheidsignalen ontbreken. In dit artikel introduceren we een open-source framework dat is ontworpen om de ontwikkeling van multimodale webagenten te vergemakkelijken die autonoom real-world verkenning kunnen uitvoeren en zichzelf kunnen verbeteren. We trainen eerst het basismodel met imitatieleren om de basisvaardigheden te verkrijgen. Vervolgens laten we de agent het open web verkennen en feedback verzamelen over zijn trajecten. Daarna verbetert het zijn beleid verder door te leren van goed presterende trajecten beoordeeld door een ander algemeen model. Deze verkenning-feedback-optimalisatiecyclus kan doorgaan gedurende verschillende iteraties. Experimentele resultaten tonen aan dat onze webagent zich succesvol verbetert na elke iteratie, waarbij sterke prestaties worden aangetoond over meerdere testsets.
English
The rapid development of large language and multimodal models has sparked significant interest in using proprietary models, such as GPT-4o, to develop autonomous agents capable of handling real-world scenarios like web navigation. Although recent open-source efforts have tried to equip agents with the ability to explore environments and continuously improve over time, they are building text-only agents in synthetic environments where the reward signals are clearly defined. Such agents struggle to generalize to realistic settings that require multimodal perception abilities and lack ground-truth signals. In this paper, we introduce an open-source framework designed to facilitate the development of multimodal web agent that can autonomously conduct real-world exploration and improve itself. We first train the base model with imitation learning to gain the basic abilities. We then let the agent explore the open web and collect feedback on its trajectories. After that, it further improves its policy by learning from well-performing trajectories judged by another general-purpose model. This exploration-feedback-optimization cycle can continue for several iterations. Experimental results show that our web agent successfully improves itself after each iteration, demonstrating strong performance across multiple test sets.

Summary

AI-Generated Summary

PDF162November 16, 2024