VideoWebArena: Evaluierung von multimodalen Agenten mit langem Kontext bei der Videoverarbeitung für Web-Aufgaben.

Zusammenfassung

Videos werden häufig verwendet, um zu lernen oder die erforderlichen Informationen zu extrahieren, um Aufgaben auf andere Weise zu vervollständigen, als es Text und statische Bilder allein bieten können. Viele bestehende Agenten-Benchmarks vernachlässigen jedoch das Verständnis von Videos mit langem Kontext und konzentrieren sich stattdessen auf Text- oder statische Bildinputs. Um diese Lücke zu schließen, stellen wir VideoWebArena (VideoWA) vor, einen Benchmark zur Bewertung der Fähigkeiten von multimodalen Agenten mit langem Kontext im Bereich des Videoverständnisses. VideoWA besteht aus 2.021 Web-Agenten-Aufgaben, die auf manuell erstellten Video-Tutorials basieren und insgesamt fast vier Stunden Inhalt umfassen. Für unseren Benchmark definieren wir eine Taxonomie von langkontextbasierten Agentenaufgaben mit zwei Hauptbereichen: Fähigkeitserhaltung und Faktenerhaltung. Während Fähigkeitserhaltungsaufgaben bewerten, ob ein Agent eine gegebene menschliche Demonstration effizient nutzen kann, bewertet die Faktenerhaltungsaufgabe, ob ein Agent instruktionsrelevante Informationen aus einem Video abrufen kann, um eine Aufgabe zu vervollständigen. Wir stellen fest, dass das beste Modell eine Erfolgsquote von 13,3% bei Faktenerhaltungsaufgaben und 45,8% bei Faktenerhaltungs-Fragen-Antwort-Paaren erzielt, weit unter der menschlichen Leistung von 73,9% bzw. 79,3%. Bei Fähigkeitserhaltungsaufgaben schneiden Modelle mit langem Kontext schlechter ab, wenn Tutorials verwendet werden, mit einer Leistungsminderung von 5% bei WebArena-Aufgaben und 10,3% bei VisualWebArena-Aufgaben. Unsere Arbeit unterstreicht die Notwendigkeit, die agentischen Fähigkeiten von multimodalen Modellen mit langem Kontext zu verbessern, und bietet eine Testumgebung für zukünftige Entwicklungen mit Agenten für Videos mit langem Kontext.

English

Videos are often used to learn or extract the necessary information to complete tasks in ways different than what text and static imagery alone can provide. However, many existing agent benchmarks neglect long-context video understanding, instead focusing on text or static image inputs. To bridge this gap, we introduce VideoWebArena (VideoWA), a benchmark for evaluating the capabilities of long-context multimodal agents for video understanding. VideoWA consists of 2,021 web agent tasks based on manually crafted video tutorials, which total almost four hours of content. For our benchmark, we define a taxonomy of long-context video-based agent tasks with two main areas of focus: skill retention and factual retention. While skill retention tasks evaluate whether an agent can use a given human demonstration to complete a task efficiently, the factual retention task evaluates whether an agent can retrieve instruction-relevant information from a video to complete a task. We find that the best model achieves 13.3% success on factual retention tasks and 45.8% on factual retention QA pairs, far below human performance at 73.9% and 79.3%, respectively. On skill retention tasks, long-context models perform worse with tutorials than without, exhibiting a 5% performance decrease in WebArena tasks and a 10.3% decrease in VisualWebArena tasks. Our work highlights the need to improve the agentic abilities of long-context multimodal models and provides a testbed for future development with long-context video agents.

VideoWebArena: Evaluierung von multimodalen Agenten mit langem Kontext bei der Videoverarbeitung für Web-Aufgaben.

VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks

Zusammenfassung

Summary

Support