OpenWebVoyager: Aufbau von multimodalen Web-Agenten durch iterative Real-World-Erkundung, Feedback und Optimierung.
OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization
October 25, 2024
Autoren: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Hongming Zhang, Tianqing Fang, Zhenzhong Lan, Dong Yu
cs.AI
Zusammenfassung
Die rasante Entwicklung großer Sprach- und multimodaler Modelle hat ein erhebliches Interesse an der Verwendung proprietärer Modelle wie GPT-4o geweckt, um autonome Agenten zu entwickeln, die in der Lage sind, reale Szenarien wie die Webnavigation zu bewältigen. Obwohl jüngste Open-Source-Bemühungen versucht haben, Agenten mit der Fähigkeit auszustatten, Umgebungen zu erkunden und sich kontinuierlich zu verbessern, bauen sie ausschließlich textbasierte Agenten in synthetischen Umgebungen auf, in denen die Belohnungssignale klar definiert sind. Solche Agenten haben Schwierigkeiten, auf realistische Umgebungen zu verallgemeinern, die multimodale Wahrnehmungsfähigkeiten erfordern und keine Ground-Truth-Signale besitzen. In diesem Papier stellen wir ein Open-Source-Framework vor, das entwickelt wurde, um die Entwicklung eines multimodalen Web-Agenten zu erleichtern, der autonom reale Explorationen durchführen und sich verbessern kann. Zunächst trainieren wir das Basismodell mit Imitationslernen, um grundlegende Fähigkeiten zu erlangen. Anschließend lassen wir den Agenten das offene Web erkunden und Feedback zu seinen Trajektorien sammeln. Danach verbessert er seine Richtlinie weiter, indem er von gut abschneidenden Trajektorien lernt, die von einem anderen allgemeinen Modell beurteilt werden. Dieser Zyklus von Exploration, Feedback und Optimierung kann über mehrere Iterationen fortgesetzt werden. Experimentelle Ergebnisse zeigen, dass unser Web-Agent sich erfolgreich nach jeder Iteration verbessert, was eine starke Leistung über mehrere Testsets hinweg zeigt.
English
The rapid development of large language and multimodal models has sparked
significant interest in using proprietary models, such as GPT-4o, to develop
autonomous agents capable of handling real-world scenarios like web navigation.
Although recent open-source efforts have tried to equip agents with the ability
to explore environments and continuously improve over time, they are building
text-only agents in synthetic environments where the reward signals are clearly
defined. Such agents struggle to generalize to realistic settings that require
multimodal perception abilities and lack ground-truth signals. In this paper,
we introduce an open-source framework designed to facilitate the development of
multimodal web agent that can autonomously conduct real-world exploration and
improve itself. We first train the base model with imitation learning to gain
the basic abilities. We then let the agent explore the open web and collect
feedback on its trajectories. After that, it further improves its policy by
learning from well-performing trajectories judged by another general-purpose
model. This exploration-feedback-optimization cycle can continue for several
iterations. Experimental results show that our web agent successfully improves
itself after each iteration, demonstrating strong performance across multiple
test sets.Summary
AI-Generated Summary