TemporalBench: 다중 모달 비디오 모델을 위한 미세 시간 이해 벤치마킹
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models
October 14, 2024
저자: Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang
cs.AI
초록
다중 모달 비디오 이해와 생성을 위해 미세 구간 시간 역학을 이해하는 것은 중요합니다. 미세 구간 시간 주석의 부족으로 인해 기존 비디오 벤치마크는 주로 정적 이미지 벤치마크와 유사하여 시간적 이해 모델을 평가하는 데 부적합합니다. 본 논문에서는 비디오의 미세 구간 시간 이해를 평가하기 위해 새로운 벤치마크인 TemporalBench를 소개합니다. TemporalBench는 비디오 클립의 시간적 역학을 자세히 설명하는 약 2천 개의 고품질 인간 주석에서 파생된 약 1만 개의 비디오 질문-답변 쌍으로 구성됩니다. 결과적으로, 우리의 벤치마크는 행동 빈도, 동작 크기, 사건 순서 등과 같은 다양한 시간적 이해 및 추론 능력을 평가하는 독특한 실험 대상을 제공합니다. 또한 비디오 질문 응답 및 자막 작성, 짧은 비디오 이해 및 긴 비디오 이해뿐만 아니라 다중 모달 비디오 임베딩 모델 및 텍스트 생성 모델과 같은 다양한 모델에 대한 평가를 가능하게 합니다. 결과는 GPT-4o와 같은 최첨단 모델이 TemporalBench에서 38.5%의 질문 응답 정확도만 달성한다는 것을 보여주며, 인간과 AI 간의 시간적 이해에서 중요한 차이(~30%)를 보여줍니다. 또한, 부정적 캡션의 미묘한 변화를 감지하고 예측을 위한 단서로 중앙 집중형 설명을 찾는 LLMs에서 발생하는 중요한 함정을 발견하고, 이러한 편향을 교정하기 위해 Multiple Binary Accuracy (MBA)를 제안합니다. TemporalBench가 모델의 시간적 추론 능력을 개선하기 위한 연구를 촉진할 수 있기를 희망합니다. 데이터셋과 평가 코드가 공개될 예정입니다.
English
Understanding fine-grained temporal dynamics is crucial for multimodal video
comprehension and generation. Due to the lack of fine-grained temporal
annotations, existing video benchmarks mostly resemble static image benchmarks
and are incompetent at evaluating models for temporal understanding. In this
paper, we introduce TemporalBench, a new benchmark dedicated to evaluating
fine-grained temporal understanding in videos. TemporalBench consists of ~10K
video question-answer pairs, derived from ~2K high-quality human annotations
detailing the temporal dynamics in video clips. As a result, our benchmark
provides a unique testbed for evaluating various temporal understanding and
reasoning abilities such as action frequency, motion magnitude, event order,
etc. Moreover, it enables evaluations on various tasks like both video question
answering and captioning, both short and long video understanding, as well as
different models such as multimodal video embedding models and text generation
models. Results show that state-of-the-art models like GPT-4o achieve only
38.5% question answering accuracy on TemporalBench, demonstrating a significant
gap (~30%) between humans and AI in temporal understanding. Furthermore, we
notice a critical pitfall for multi-choice QA where LLMs can detect the subtle
changes in negative captions and find a centralized description as a cue for
its prediction, where we propose Multiple Binary Accuracy (MBA) to correct such
bias. We hope that TemporalBench can foster research on improving models'
temporal reasoning capabilities. Both dataset and evaluation code will be made
available.Summary
AI-Generated Summary