OpenWebVoyager: Costruzione di Agenti Web Multimodali tramite Esplorazione, Feedback e Ottimizzazione Iterativa nel Mondo Reale

OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

October 25, 2024
Autori: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Hongming Zhang, Tianqing Fang, Zhenzhong Lan, Dong Yu
cs.AI

Abstract

Lo sviluppo rapido di modelli linguistici e multimodali di grandi dimensioni ha suscitato un notevole interesse nell'utilizzo di modelli proprietari, come il GPT-4o, per sviluppare agenti autonomi capaci di gestire scenari del mondo reale come la navigazione web. Sebbene recenti sforzi open-source abbiano cercato di dotare gli agenti della capacità di esplorare ambienti e migliorare continuamente nel tempo, stanno costruendo agenti solo testuali in ambienti sintetici in cui i segnali di ricompensa sono chiaramente definiti. Tali agenti faticano a generalizzare a contesti realistici che richiedono abilità di percezione multimodale e mancano di segnali di verità fondamentale. In questo articolo, presentiamo un framework open-source progettato per facilitare lo sviluppo di un agente web multimodale in grado di condurre esplorazioni del mondo reale in modo autonomo e migliorarsi. Prima addestriamo il modello base con apprendimento per imitazione per acquisire le abilità di base. Successivamente permettiamo all'agente di esplorare il web aperto e raccogliere feedback sui suoi percorsi. Dopo di che, migliora ulteriormente la sua politica apprendendo dai percorsi che si comportano bene giudicati da un altro modello generale. Questo ciclo di esplorazione-feedback-ottimizzazione può continuare per diverse iterazioni. I risultati sperimentali mostrano che il nostro agente web migliora con successo se stesso dopo ogni iterazione, dimostrando prestazioni solide su più set di test.
English
The rapid development of large language and multimodal models has sparked significant interest in using proprietary models, such as GPT-4o, to develop autonomous agents capable of handling real-world scenarios like web navigation. Although recent open-source efforts have tried to equip agents with the ability to explore environments and continuously improve over time, they are building text-only agents in synthetic environments where the reward signals are clearly defined. Such agents struggle to generalize to realistic settings that require multimodal perception abilities and lack ground-truth signals. In this paper, we introduce an open-source framework designed to facilitate the development of multimodal web agent that can autonomously conduct real-world exploration and improve itself. We first train the base model with imitation learning to gain the basic abilities. We then let the agent explore the open web and collect feedback on its trajectories. After that, it further improves its policy by learning from well-performing trajectories judged by another general-purpose model. This exploration-feedback-optimization cycle can continue for several iterations. Experimental results show that our web agent successfully improves itself after each iteration, demonstrating strong performance across multiple test sets.

Summary

AI-Generated Summary

PDF172November 16, 2024