OpenWebVoyager: Het bouwen van multimodale webagenten via iteratieve verkenning, feedback en optimalisatie in de echte wereld.
OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization
October 25, 2024
Auteurs: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Hongming Zhang, Tianqing Fang, Zhenzhong Lan, Dong Yu
cs.AI
Samenvatting
De snelle ontwikkeling van grote taal- en multimodale modellen heeft aanzienlijke interesse gewekt in het gebruik van eigen modellen, zoals GPT-4o, om autonome agenten te ontwikkelen die in staat zijn om realistische scenario's zoals webnavigatie aan te pakken. Hoewel recente open-source inspanningen hebben geprobeerd om agenten uit te rusten met de mogelijkheid om omgevingen te verkennen en zich in de loop van de tijd voortdurend te verbeteren, bouwen ze tekstuele agenten in synthetische omgevingen waar de beloningsignalen duidelijk gedefinieerd zijn. Dergelijke agenten hebben moeite om te generaliseren naar realistische omgevingen die multimodale perceptievaardigheden vereisen en waarbij grondwaarheidsignalen ontbreken. In dit artikel introduceren we een open-source framework dat is ontworpen om de ontwikkeling van multimodale webagenten te vergemakkelijken die autonoom real-world verkenning kunnen uitvoeren en zichzelf kunnen verbeteren. We trainen eerst het basismodel met imitatieleren om de basisvaardigheden te verkrijgen. Vervolgens laten we de agent het open web verkennen en feedback verzamelen over zijn trajecten. Daarna verbetert het zijn beleid verder door te leren van goed presterende trajecten beoordeeld door een ander algemeen model. Deze verkenning-feedback-optimalisatiecyclus kan doorgaan gedurende verschillende iteraties. Experimentele resultaten tonen aan dat onze webagent zich succesvol verbetert na elke iteratie, waarbij sterke prestaties worden aangetoond over meerdere testsets.
English
The rapid development of large language and multimodal models has sparked
significant interest in using proprietary models, such as GPT-4o, to develop
autonomous agents capable of handling real-world scenarios like web navigation.
Although recent open-source efforts have tried to equip agents with the ability
to explore environments and continuously improve over time, they are building
text-only agents in synthetic environments where the reward signals are clearly
defined. Such agents struggle to generalize to realistic settings that require
multimodal perception abilities and lack ground-truth signals. In this paper,
we introduce an open-source framework designed to facilitate the development of
multimodal web agent that can autonomously conduct real-world exploration and
improve itself. We first train the base model with imitation learning to gain
the basic abilities. We then let the agent explore the open web and collect
feedback on its trajectories. After that, it further improves its policy by
learning from well-performing trajectories judged by another general-purpose
model. This exploration-feedback-optimization cycle can continue for several
iterations. Experimental results show that our web agent successfully improves
itself after each iteration, demonstrating strong performance across multiple
test sets.Summary
AI-Generated Summary