토마토: 다중 모달 기반 모델에서 시각적 시간적 추론 능력 평가
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models
October 30, 2024
저자: Ziyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan
cs.AI
초록
기존의 벤치마크는 최첨단 다중모달 기반 모델(MFMs)이 비디오 이해를 위해 시간적 맥락을 활용하여 달성한 놀라운 성과를 강조합니다. 그러나 모델이 시각적 시간적 추론을 얼마나 잘 수행하는지에 대한 의문이 남아 있습니다. 우리의 기존 벤치마크 연구는 MFMs의 이 능력이 과대평가될 가능성이 있음을 보여줍니다. 왜냐하면 많은 질문들이 단일, 몇 개 또는 순서가 뒤바뀐 프레임을 사용하여 해결될 수 있기 때문입니다. 현재의 시각적 시간적 추론 작업을 체계적으로 검토하기 위해 우리는 세 가지 원칙과 해당 메트릭을 제안합니다: (1) 다중 프레임 이득, (2) 프레임 순서 민감도, (3) 프레임 정보 격차. 이러한 원칙을 따라 우리는 TOMATO, 비디오 이해에서 MFMs의 시간적 추론 능력을 엄격하게 평가하기 위해 만들어진 새로운 벤치마크를 소개합니다. TOMATO는 1,484개의 신중하게 선별된 인간 주석이 달린 질문들로 이루어진 여섯 가지 작업(동작 횟수, 방향, 회전, 모양 및 추세, 속도 및 주파수, 시각적 단서)을 포함하며, 인간 중심, 실제 세계, 시뮬레이션 시나리오를 포괄하는 1,417개의 비디오에 적용됩니다. 이 중에는 805개의 자체 녹화 및 생성된 비디오도 포함됩니다. 우리의 포괄적인 평가 결과, 최고 성능 모델과의 인간-모델 성능 차이가 57.3%임을 밝혀냅니다. 더욱이, 우리의 심층 분석은 현재 MFMs의 이러한 차이 이상의 보다 근본적인 한계를 발견합니다. 이들은 고립된 프레임에서 사건을 정확하게 인식할 수 있지만, 이러한 프레임을 연속적인 시퀀스로 해석하는 데 실패합니다. 우리는 TOMATO가 차세대 MFMs를 평가하는 중요한 시험대 역할을 할 것으로 믿으며, 인간 세계의 동적을 비디오 방식을 통해 이해할 수 있는 AI 시스템을 개발하기 위한 커뮤니티에 대한 호소라고 생각합니다.
English
Existing benchmarks often highlight the remarkable performance achieved by
state-of-the-art Multimodal Foundation Models (MFMs) in leveraging temporal
context for video understanding. However, how well do the models truly perform
visual temporal reasoning? Our study of existing benchmarks shows that this
capability of MFMs is likely overestimated as many questions can be solved by
using a single, few, or out-of-order frames. To systematically examine current
visual temporal reasoning tasks, we propose three principles with corresponding
metrics: (1) Multi-Frame Gain, (2) Frame Order Sensitivity, and (3) Frame
Information Disparity. Following these principles, we introduce TOMATO,
Temporal Reasoning Multimodal Evaluation, a novel benchmark crafted to
rigorously assess MFMs' temporal reasoning capabilities in video understanding.
TOMATO comprises 1,484 carefully curated, human-annotated questions spanning
six tasks (i.e., action count, direction, rotation, shape & trend, velocity &
frequency, and visual cues), applied to 1,417 videos, including 805
self-recorded and -generated videos, that encompass human-centric, real-world,
and simulated scenarios. Our comprehensive evaluation reveals a human-model
performance gap of 57.3% with the best-performing model. Moreover, our in-depth
analysis uncovers more fundamental limitations beyond this gap in current MFMs.
While they can accurately recognize events in isolated frames, they fail to
interpret these frames as a continuous sequence. We believe TOMATO will serve
as a crucial testbed for evaluating the next-generation MFMs and as a call to
the community to develop AI systems capable of comprehending human world
dynamics through the video modality.Summary
AI-Generated Summary