VideoWebArena: Het evalueren van multimodale agenten met lange context met video voor het begrijpen van webtaken.

Samenvatting

Video's worden vaak gebruikt om te leren of de benodigde informatie te extraheren om taken op manieren te voltooien die anders zijn dan wat alleen tekst en statische beelden kunnen bieden. Veel bestaande benchmarks voor agenten verwaarlozen echter begrip van video's met een lange context, en richten zich in plaats daarvan op tekst of statische beeldinvoer. Om deze kloof te overbruggen, introduceren we VideoWebArena (VideoWA), een benchmark voor het evalueren van de mogelijkheden van multimodale agenten met een lange context voor videobegrip. VideoWA bestaat uit 2.021 webagenttaken gebaseerd op handmatig gemaakte videotutorials, die bijna vier uur aan inhoud omvatten. Voor onze benchmark definiëren we een taxonomie van taken voor agenten op basis van video's met een lange context met twee hoofdgebieden van focus: vaardigheidsbehoud en feitenbehoud. Terwijl vaardigheidsbehoudtaken evalueren of een agent een gegeven menselijke demonstratie kan gebruiken om een taak efficiënt uit te voeren, evalueert de feitenbehoudtaak of een agent instructierelevante informatie uit een video kan halen om een taak te voltooien. We vinden dat het beste model 13,3% succes behaalt bij feitenbehoudtaken en 45,8% bij feitenbehoud QA-paren, ver onder de menselijke prestatie van respectievelijk 73,9% en 79,3%. Bij vaardigheidsbehoudtaken presteren modellen met een lange context slechter met tutorials dan zonder, met een prestatiedaling van 5% bij WebArena-taken en een daling van 10,3% bij VisualWebArena-taken. Ons werk benadrukt de noodzaak om de agentische vaardigheden van multimodale modellen met een lange context te verbeteren en biedt een testomgeving voor toekomstige ontwikkeling met video-agenten met een lange context.

English

Videos are often used to learn or extract the necessary information to complete tasks in ways different than what text and static imagery alone can provide. However, many existing agent benchmarks neglect long-context video understanding, instead focusing on text or static image inputs. To bridge this gap, we introduce VideoWebArena (VideoWA), a benchmark for evaluating the capabilities of long-context multimodal agents for video understanding. VideoWA consists of 2,021 web agent tasks based on manually crafted video tutorials, which total almost four hours of content. For our benchmark, we define a taxonomy of long-context video-based agent tasks with two main areas of focus: skill retention and factual retention. While skill retention tasks evaluate whether an agent can use a given human demonstration to complete a task efficiently, the factual retention task evaluates whether an agent can retrieve instruction-relevant information from a video to complete a task. We find that the best model achieves 13.3% success on factual retention tasks and 45.8% on factual retention QA pairs, far below human performance at 73.9% and 79.3%, respectively. On skill retention tasks, long-context models perform worse with tutorials than without, exhibiting a 5% performance decrease in WebArena tasks and a 10.3% decrease in VisualWebArena tasks. Our work highlights the need to improve the agentic abilities of long-context multimodal models and provides a testbed for future development with long-context video agents.

VideoWebArena: Het evalueren van multimodale agenten met lange context met video voor het begrijpen van webtaken.

VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks

Samenvatting

Summary

Support