비디오웹아레나: 비디오 이해 웹 작업을 통해 장기 맥락 다중모달 에이전트를 평가하기

VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks

October 24, 2024
저자: Lawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida
cs.AI

초록

비디오는 종종 학습하거나 필요한 정보를 추출하기 위해 텍스트와 정적 이미지만으로는 제공할 수 없는 방식으로 작업을 완료하는 데 사용됩니다. 그러나 많은 기존 에이전트 벤치마크는 장기적 컨텍스트 비디오 이해를 무시하고 텍스트나 정적 이미지 입력에 초점을 맞추고 있습니다. 이 간극을 메우기 위해 우리는 비디오 이해를 위한 장기적 다중모달 에이전트의 능력을 평가하기 위한 벤치마크인 VideoWebArena (VideoWA)를 소개합니다. VideoWA는 거의 4시간에 이르는 수동으로 제작된 비디오 튜토리얼을 기반으로 2,021개의 웹 에이전트 작업으로 구성되어 있습니다. 우리의 벤치마크에서는 장기적 비디오 기반 에이전트 작업의 분류법을 정의하였는데, 주요 관심사항은 기술 보유 및 사실 보유 두 가지입니다. 기술 보유 작업은 에이전트가 주어진 인간의 데모를 사용하여 작업을 효율적으로 완료할 수 있는지를 평가하며, 사실 보유 작업은 에이전트가 비디오에서 지시와 관련된 정보를 검색하여 작업을 완료할 수 있는지를 평가합니다. 최고 모델은 사실 보유 작업에서 13.3%의 성공률을 달성하고, 사실 보유 QA 쌍에서는 45.8%의 성공률을 달성하였으며, 이는 각각 73.9% 및 79.3%인 인간의 성능에 크게 못 미치는 수준입니다. 기술 보유 작업에서는 장기적 모델이 튜토리얼을 사용할 때 더 나쁜 성과를 보이며, WebArena 작업에서는 5%의 성능 저하와 VisualWebArena 작업에서는 10.3%의 성능 저하를 나타냅니다. 우리의 연구는 장기적 다중모달 모델의 에이전트 능력을 개선해야 한다는 필요성을 강조하고, 장기적 비디오 에이전트와 함께 미래 개발을 위한 테스트베드를 제공합니다.
English
Videos are often used to learn or extract the necessary information to complete tasks in ways different than what text and static imagery alone can provide. However, many existing agent benchmarks neglect long-context video understanding, instead focusing on text or static image inputs. To bridge this gap, we introduce VideoWebArena (VideoWA), a benchmark for evaluating the capabilities of long-context multimodal agents for video understanding. VideoWA consists of 2,021 web agent tasks based on manually crafted video tutorials, which total almost four hours of content. For our benchmark, we define a taxonomy of long-context video-based agent tasks with two main areas of focus: skill retention and factual retention. While skill retention tasks evaluate whether an agent can use a given human demonstration to complete a task efficiently, the factual retention task evaluates whether an agent can retrieve instruction-relevant information from a video to complete a task. We find that the best model achieves 13.3% success on factual retention tasks and 45.8% on factual retention QA pairs, far below human performance at 73.9% and 79.3%, respectively. On skill retention tasks, long-context models perform worse with tutorials than without, exhibiting a 5% performance decrease in WebArena tasks and a 10.3% decrease in VisualWebArena tasks. Our work highlights the need to improve the agentic abilities of long-context multimodal models and provides a testbed for future development with long-context video agents.

Summary

AI-Generated Summary

PDF62November 16, 2024