VideoWebArena : Évaluation des agents multimodaux à long contexte avec compréhension vidéo pour les tâches web.
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks
October 24, 2024
Auteurs: Lawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida
cs.AI
Résumé
Les vidéos sont souvent utilisées pour apprendre ou extraire les informations nécessaires pour accomplir des tâches de manière différente de ce que le texte et les images statiques seuls peuvent fournir. Cependant, de nombreux benchmarks d'agents existants négligent la compréhension des vidéos à long contexte, se concentrant plutôt sur des entrées de texte ou d'images statiques. Pour combler cette lacune, nous introduisons VideoWebArena (VideoWA), un benchmark pour évaluer les capacités des agents multimodaux à long contexte en matière de compréhension des vidéos. VideoWA se compose de 2 021 tâches d'agents web basées sur des tutoriels vidéo créés manuellement, totalisant près de quatre heures de contenu. Pour notre benchmark, nous définissons une taxonomie des tâches d'agents basées sur des vidéos à long contexte avec deux principaux domaines d'intérêt : la rétention des compétences et la rétention des faits. Alors que les tâches de rétention des compétences évaluent si un agent peut utiliser une démonstration humaine donnée pour accomplir une tâche efficacement, la tâche de rétention des faits évalue si un agent peut récupérer des informations pertinentes à l'instruction à partir d'une vidéo pour accomplir une tâche. Nous constatons que le meilleur modèle atteint un taux de réussite de 13,3 % sur les tâches de rétention des faits et de 45,8 % sur les paires de questions-réponses de rétention des faits, bien en dessous des performances humaines à 73,9 % et 79,3 % respectivement. Sur les tâches de rétention des compétences, les modèles à long contexte se comportent moins bien avec les tutoriels qu'avec les autres, montrant une diminution de performance de 5 % dans les tâches de WebArena et de 10,3 % dans les tâches de VisualWebArena. Notre travail met en évidence la nécessité d'améliorer les capacités agentic des modèles multimodaux à long contexte et fournit une plateforme d'essai pour le développement futur avec des agents vidéo à long contexte.
English
Videos are often used to learn or extract the necessary information to
complete tasks in ways different than what text and static imagery alone can
provide. However, many existing agent benchmarks neglect long-context video
understanding, instead focusing on text or static image inputs. To bridge this
gap, we introduce VideoWebArena (VideoWA), a benchmark for evaluating the
capabilities of long-context multimodal agents for video understanding. VideoWA
consists of 2,021 web agent tasks based on manually crafted video tutorials,
which total almost four hours of content. For our benchmark, we define a
taxonomy of long-context video-based agent tasks with two main areas of focus:
skill retention and factual retention. While skill retention tasks evaluate
whether an agent can use a given human demonstration to complete a task
efficiently, the factual retention task evaluates whether an agent can retrieve
instruction-relevant information from a video to complete a task. We find that
the best model achieves 13.3% success on factual retention tasks and 45.8% on
factual retention QA pairs, far below human performance at 73.9% and 79.3%,
respectively. On skill retention tasks, long-context models perform worse with
tutorials than without, exhibiting a 5% performance decrease in WebArena tasks
and a 10.3% decrease in VisualWebArena tasks. Our work highlights the need to
improve the agentic abilities of long-context multimodal models and provides a
testbed for future development with long-context video agents.Summary
AI-Generated Summary