VideoWebArena: Valutazione degli Agenti Multimodali a Lungo Contesto con Comprendimento Video per Compiti Web
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks
October 24, 2024
Autori: Lawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida
cs.AI
Abstract
I video sono spesso utilizzati per apprendere o estrarre le informazioni necessarie per completare compiti in modi diversi da quanto possano fornire solo testo e immagini statiche. Tuttavia, molti benchmark esistenti per agenti trascurano la comprensione dei video a lungo contesto, concentrandosi invece su input di testo o immagini statiche. Per colmare questa lacuna, presentiamo VideoWebArena (VideoWA), un benchmark per valutare le capacità degli agenti multimodali a lungo contesto nella comprensione dei video. VideoWA è composto da 2.021 compiti per agenti web basati su tutorial video creati manualmente, che totalizzano quasi quattro ore di contenuti. Per il nostro benchmark, definiamo una tassonomia dei compiti degli agenti basati su video a lungo contesto con due principali aree di focus: la ritenzione delle abilità e la ritenzione dei fatti. Mentre i compiti di ritenzione delle abilità valutano se un agente può utilizzare una dimostrazione umana data per completare un compito in modo efficiente, il compito di ritenzione dei fatti valuta se un agente può recuperare informazioni rilevanti per le istruzioni da un video per completare un compito. Troviamo che il miglior modello raggiunge il 13,3% di successo nei compiti di ritenzione dei fatti e il 45,8% nelle coppie di domande e risposte di ritenzione dei fatti, molto al di sotto delle prestazioni umane rispettivamente del 73,9% e del 79,3%. Nei compiti di ritenzione delle abilità, i modelli a lungo contesto si comportano peggio con i tutorial che senza, mostrando una diminuzione delle prestazioni del 5% nei compiti di WebArena e del 10,3% nei compiti di VisualWebArena. Il nostro lavoro sottolinea la necessità di migliorare le capacità agentiche dei modelli multimodali a lungo contesto e fornisce una base per lo sviluppo futuro con agenti video a lungo contesto.
English
Videos are often used to learn or extract the necessary information to
complete tasks in ways different than what text and static imagery alone can
provide. However, many existing agent benchmarks neglect long-context video
understanding, instead focusing on text or static image inputs. To bridge this
gap, we introduce VideoWebArena (VideoWA), a benchmark for evaluating the
capabilities of long-context multimodal agents for video understanding. VideoWA
consists of 2,021 web agent tasks based on manually crafted video tutorials,
which total almost four hours of content. For our benchmark, we define a
taxonomy of long-context video-based agent tasks with two main areas of focus:
skill retention and factual retention. While skill retention tasks evaluate
whether an agent can use a given human demonstration to complete a task
efficiently, the factual retention task evaluates whether an agent can retrieve
instruction-relevant information from a video to complete a task. We find that
the best model achieves 13.3% success on factual retention tasks and 45.8% on
factual retention QA pairs, far below human performance at 73.9% and 79.3%,
respectively. On skill retention tasks, long-context models perform worse with
tutorials than without, exhibiting a 5% performance decrease in WebArena tasks
and a 10.3% decrease in VisualWebArena tasks. Our work highlights the need to
improve the agentic abilities of long-context multimodal models and provides a
testbed for future development with long-context video agents.Summary
AI-Generated Summary