VideoWebArena: Evaluierung von multimodalen Agenten mit langem Kontext bei der Videoverarbeitung für Web-Aufgaben.
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks
October 24, 2024
Autoren: Lawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida
cs.AI
Zusammenfassung
Videos werden häufig verwendet, um zu lernen oder die erforderlichen Informationen zu extrahieren, um Aufgaben auf andere Weise zu vervollständigen, als es Text und statische Bilder allein bieten können. Viele bestehende Agenten-Benchmarks vernachlässigen jedoch das Verständnis von Videos mit langem Kontext und konzentrieren sich stattdessen auf Text- oder statische Bildinputs. Um diese Lücke zu schließen, stellen wir VideoWebArena (VideoWA) vor, einen Benchmark zur Bewertung der Fähigkeiten von multimodalen Agenten mit langem Kontext im Bereich des Videoverständnisses. VideoWA besteht aus 2.021 Web-Agenten-Aufgaben, die auf manuell erstellten Video-Tutorials basieren und insgesamt fast vier Stunden Inhalt umfassen. Für unseren Benchmark definieren wir eine Taxonomie von langkontextbasierten Agentenaufgaben mit zwei Hauptbereichen: Fähigkeitserhaltung und Faktenerhaltung. Während Fähigkeitserhaltungsaufgaben bewerten, ob ein Agent eine gegebene menschliche Demonstration effizient nutzen kann, bewertet die Faktenerhaltungsaufgabe, ob ein Agent instruktionsrelevante Informationen aus einem Video abrufen kann, um eine Aufgabe zu vervollständigen. Wir stellen fest, dass das beste Modell eine Erfolgsquote von 13,3% bei Faktenerhaltungsaufgaben und 45,8% bei Faktenerhaltungs-Fragen-Antwort-Paaren erzielt, weit unter der menschlichen Leistung von 73,9% bzw. 79,3%. Bei Fähigkeitserhaltungsaufgaben schneiden Modelle mit langem Kontext schlechter ab, wenn Tutorials verwendet werden, mit einer Leistungsminderung von 5% bei WebArena-Aufgaben und 10,3% bei VisualWebArena-Aufgaben. Unsere Arbeit unterstreicht die Notwendigkeit, die agentischen Fähigkeiten von multimodalen Modellen mit langem Kontext zu verbessern, und bietet eine Testumgebung für zukünftige Entwicklungen mit Agenten für Videos mit langem Kontext.
English
Videos are often used to learn or extract the necessary information to
complete tasks in ways different than what text and static imagery alone can
provide. However, many existing agent benchmarks neglect long-context video
understanding, instead focusing on text or static image inputs. To bridge this
gap, we introduce VideoWebArena (VideoWA), a benchmark for evaluating the
capabilities of long-context multimodal agents for video understanding. VideoWA
consists of 2,021 web agent tasks based on manually crafted video tutorials,
which total almost four hours of content. For our benchmark, we define a
taxonomy of long-context video-based agent tasks with two main areas of focus:
skill retention and factual retention. While skill retention tasks evaluate
whether an agent can use a given human demonstration to complete a task
efficiently, the factual retention task evaluates whether an agent can retrieve
instruction-relevant information from a video to complete a task. We find that
the best model achieves 13.3% success on factual retention tasks and 45.8% on
factual retention QA pairs, far below human performance at 73.9% and 79.3%,
respectively. On skill retention tasks, long-context models perform worse with
tutorials than without, exhibiting a 5% performance decrease in WebArena tasks
and a 10.3% decrease in VisualWebArena tasks. Our work highlights the need to
improve the agentic abilities of long-context multimodal models and provides a
testbed for future development with long-context video agents.Summary
AI-Generated Summary