ChatPaper.aiChatPaper

E.T. Bench: 개방형 이벤트 수준 비디오-언어 이해를 향하여

E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding

September 26, 2024
저자: Ye Liu, Zongyang Ma, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI

초록

최근 Video Large Language Models (Video-LLMs)의 발전은 일반적인 비디오 이해 분야에서 그들의 큰 잠재력을 입증했습니다. 이러한 모델의 중요성을 확인하기 위해 다양한 시나리오에서 그들의 능력을 진단하기 위한 여러 개의 벤치마크가 제안되었습니다. 그러나 기존의 벤치마크는 주로 비디오 수준의 질문-답변을 통해 모델을 평가하며, 세밀한 이벤트 수준의 평가와 작업 다양성이 부족합니다. 이러한 공백을 채우기 위해 우리는 E.T. Bench (이벤트-수준 및 시간-민감 비디오 이해 벤치마크)를 소개합니다. 이는 오픈엔드 이벤트-수준 비디오 이해를 위한 대규모이자 고품질의 벤치마크로, 3단계 작업 분류 체계 내에서 분류되며, 8개 도메인에서 7K 비디오 (총 251.4시간 길이)에 대한 7.3K 샘플을 포함하여 포괄적인 평가를 제공합니다. 우리는 이 벤치마크에서 8개의 Image-LLMs와 12개의 Video-LLMs를 철저히 평가했으며, 결과는 비디오 수준의 이해에 대한 최첨단 모델들이 세밀한 작업, 예를 들어 비디오 내의 관심 이벤트를 지지 않는 등의 과제를 해결하는 데 어려움을 겪는다는 것을 보여줍니다. 이는 주로 짧은 비디오 콘텍스트 길이, 부적절한 시간 표현, 그리고 다중 이벤트 훈련 데이터의 부족 때문입니다. 이러한 문제에 초점을 맞추어 우리는 세련된 베이스라인 모델인 E.T. Chat과 세밀한 이벤트-수준 이해를 위해 맞춤형으로 제작된 지시 튜닝 데이터셋 E.T. Instruct 164K를 제안합니다. 우리의 간단하면서 효과적인 솔루션은 다양한 시나리오에서 우수한 성능을 보여줍니다.
English
Recent advances in Video Large Language Models (Video-LLMs) have demonstrated their great potential in general-purpose video understanding. To verify the significance of these models, a number of benchmarks have been proposed to diagnose their capabilities in different scenarios. However, existing benchmarks merely evaluate models through video-level question-answering, lacking fine-grained event-level assessment and task diversity. To fill this gap, we introduce E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark), a large-scale and high-quality benchmark for open-ended event-level video understanding. Categorized within a 3-level task taxonomy, E.T. Bench encompasses 7.3K samples under 12 tasks with 7K videos (251.4h total length) under 8 domains, providing comprehensive evaluations. We extensively evaluated 8 Image-LLMs and 12 Video-LLMs on our benchmark, and the results reveal that state-of-the-art models for coarse-level (video-level) understanding struggle to solve our fine-grained tasks, e.g., grounding event-of-interests within videos, largely due to the short video context length, improper time representations, and lack of multi-event training data. Focusing on these issues, we further propose a strong baseline model, E.T. Chat, together with an instruction-tuning dataset E.T. Instruct 164K tailored for fine-grained event-level understanding. Our simple but effective solution demonstrates superior performance in multiple scenarios.

Summary

AI-Generated Summary

PDF72November 16, 2024