OpenWebVoyager : Construction d'agents Web multimodaux via exploration itérative du monde réel, rétroaction et optimisation.

OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

October 25, 2024
Auteurs: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Hongming Zhang, Tianqing Fang, Zhenzhong Lan, Dong Yu
cs.AI

Résumé

Le développement rapide de grands modèles de langage et multimodaux a suscité un intérêt significatif pour l'utilisation de modèles propriétaires, tels que GPT-4o, pour développer des agents autonomes capables de gérer des scénarios du monde réel tels que la navigation web. Bien que des efforts récents en open source aient tenté de doter les agents de la capacité d'explorer des environnements et de s'améliorer continuellement avec le temps, ils construisent des agents textuels uniquement dans des environnements synthétiques où les signaux de récompense sont clairement définis. Ces agents ont du mal à généraliser à des paramètres réalistes qui nécessitent des capacités de perception multimodale et qui manquent de signaux de vérité terrain. Dans cet article, nous présentons un cadre open source conçu pour faciliter le développement d'un agent web multimodal capable de mener des explorations du monde réel de manière autonome et de s'améliorer. Nous entraînons d'abord le modèle de base avec l'apprentissage par imitation pour acquérir les compétences de base. Ensuite, nous laissons l'agent explorer le web ouvert et recueillir des retours sur ses trajectoires. Ensuite, il améliore davantage sa politique en apprenant à partir de trajectoires performantes jugées par un autre modèle polyvalent. Ce cycle exploration-retour d'information-optimisation peut se poursuivre pendant plusieurs itérations. Les résultats expérimentaux montrent que notre agent web s'améliore avec succès après chaque itération, démontrant de solides performances sur plusieurs ensembles de tests.
English
The rapid development of large language and multimodal models has sparked significant interest in using proprietary models, such as GPT-4o, to develop autonomous agents capable of handling real-world scenarios like web navigation. Although recent open-source efforts have tried to equip agents with the ability to explore environments and continuously improve over time, they are building text-only agents in synthetic environments where the reward signals are clearly defined. Such agents struggle to generalize to realistic settings that require multimodal perception abilities and lack ground-truth signals. In this paper, we introduce an open-source framework designed to facilitate the development of multimodal web agent that can autonomously conduct real-world exploration and improve itself. We first train the base model with imitation learning to gain the basic abilities. We then let the agent explore the open web and collect feedback on its trajectories. After that, it further improves its policy by learning from well-performing trajectories judged by another general-purpose model. This exploration-feedback-optimization cycle can continue for several iterations. Experimental results show that our web agent successfully improves itself after each iteration, demonstrating strong performance across multiple test sets.

Summary

AI-Generated Summary

PDF162November 16, 2024