OpenWebVoyager : Construction d'agents Web multimodaux via exploration itérative du monde réel, rétroaction et optimisation.
OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization
October 25, 2024
Auteurs: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Hongming Zhang, Tianqing Fang, Zhenzhong Lan, Dong Yu
cs.AI
Résumé
Le développement rapide de grands modèles de langage et multimodaux a suscité un intérêt significatif pour l'utilisation de modèles propriétaires, tels que GPT-4o, pour développer des agents autonomes capables de gérer des scénarios du monde réel tels que la navigation web. Bien que des efforts récents en open source aient tenté de doter les agents de la capacité d'explorer des environnements et de s'améliorer continuellement avec le temps, ils construisent des agents textuels uniquement dans des environnements synthétiques où les signaux de récompense sont clairement définis. Ces agents ont du mal à généraliser à des paramètres réalistes qui nécessitent des capacités de perception multimodale et qui manquent de signaux de vérité terrain. Dans cet article, nous présentons un cadre open source conçu pour faciliter le développement d'un agent web multimodal capable de mener des explorations du monde réel de manière autonome et de s'améliorer. Nous entraînons d'abord le modèle de base avec l'apprentissage par imitation pour acquérir les compétences de base. Ensuite, nous laissons l'agent explorer le web ouvert et recueillir des retours sur ses trajectoires. Ensuite, il améliore davantage sa politique en apprenant à partir de trajectoires performantes jugées par un autre modèle polyvalent. Ce cycle exploration-retour d'information-optimisation peut se poursuivre pendant plusieurs itérations. Les résultats expérimentaux montrent que notre agent web s'améliore avec succès après chaque itération, démontrant de solides performances sur plusieurs ensembles de tests.
English
The rapid development of large language and multimodal models has sparked
significant interest in using proprietary models, such as GPT-4o, to develop
autonomous agents capable of handling real-world scenarios like web navigation.
Although recent open-source efforts have tried to equip agents with the ability
to explore environments and continuously improve over time, they are building
text-only agents in synthetic environments where the reward signals are clearly
defined. Such agents struggle to generalize to realistic settings that require
multimodal perception abilities and lack ground-truth signals. In this paper,
we introduce an open-source framework designed to facilitate the development of
multimodal web agent that can autonomously conduct real-world exploration and
improve itself. We first train the base model with imitation learning to gain
the basic abilities. We then let the agent explore the open web and collect
feedback on its trajectories. After that, it further improves its policy by
learning from well-performing trajectories judged by another general-purpose
model. This exploration-feedback-optimization cycle can continue for several
iterations. Experimental results show that our web agent successfully improves
itself after each iteration, demonstrating strong performance across multiple
test sets.Summary
AI-Generated Summary