TOMATO: Het beoordelen van visuele temporele redeneervaardigheden in multimodale foundation modellen

TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

October 30, 2024
Auteurs: Ziyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan
cs.AI

Samenvatting

Bestaande benchmarks benadrukken vaak de opmerkelijke prestaties die worden behaald door state-of-the-art Multimodale Fundamentele Modellen (MFM's) bij het benutten van temporele context voor het begrijpen van video's. Echter, hoe goed presteren de modellen werkelijk in visuele temporele redenering? Onze studie van bestaande benchmarks toont aan dat deze capaciteit van MFM's waarschijnlijk wordt overschat, aangezien veel vragen kunnen worden opgelost door het gebruik van één, enkele, of willekeurige frames. Om de huidige visuele temporele redeneertaken systematisch te onderzoeken, stellen we drie principes voor met bijbehorende metrieken: (1) Multi-Frame Winst, (2) Framevolgordegevoeligheid, en (3) Frame-informatieverschil. Volgens deze principes introduceren we TOMATO, Temporele Redenering Multimodale Evaluatie, een nieuw benchmark ontworpen om de temporele redeneercapaciteiten van MFM's in video begrip grondig te beoordelen. TOMATO omvat 1.484 zorgvuldig samengestelde, mens-geannoteerde vragen die zes taken bestrijken (d.w.z., actietelling, richting, rotatie, vorm & trend, snelheid & frequentie, en visuele aanwijzingen), toegepast op 1.417 video's, inclusief 805 zelf opgenomen en gegenereerde video's, die mens-gecentreerde, realistische en gesimuleerde scenario's omvatten. Onze uitgebreide evaluatie onthult een mens-model prestatiekloof van 57,3% met het best presterende model. Bovendien onthult onze diepgaande analyse meer fundamentele beperkingen dan deze kloof in huidige MFM's. Hoewel ze gebeurtenissen nauwkeurig kunnen herkennen in geïsoleerde frames, falen ze in het interpreteren van deze frames als een continue reeks. Wij geloven dat TOMATO zal dienen als een cruciaal testplatform voor het evalueren van de volgende generatie MFM's en als een oproep aan de gemeenschap om AI-systemen te ontwikkelen die in staat zijn om de dynamiek van de menselijke wereld te begrijpen via de videomodaliteit.
English
Existing benchmarks often highlight the remarkable performance achieved by state-of-the-art Multimodal Foundation Models (MFMs) in leveraging temporal context for video understanding. However, how well do the models truly perform visual temporal reasoning? Our study of existing benchmarks shows that this capability of MFMs is likely overestimated as many questions can be solved by using a single, few, or out-of-order frames. To systematically examine current visual temporal reasoning tasks, we propose three principles with corresponding metrics: (1) Multi-Frame Gain, (2) Frame Order Sensitivity, and (3) Frame Information Disparity. Following these principles, we introduce TOMATO, Temporal Reasoning Multimodal Evaluation, a novel benchmark crafted to rigorously assess MFMs' temporal reasoning capabilities in video understanding. TOMATO comprises 1,484 carefully curated, human-annotated questions spanning six tasks (i.e., action count, direction, rotation, shape & trend, velocity & frequency, and visual cues), applied to 1,417 videos, including 805 self-recorded and -generated videos, that encompass human-centric, real-world, and simulated scenarios. Our comprehensive evaluation reveals a human-model performance gap of 57.3% with the best-performing model. Moreover, our in-depth analysis uncovers more fundamental limitations beyond this gap in current MFMs. While they can accurately recognize events in isolated frames, they fail to interpret these frames as a continuous sequence. We believe TOMATO will serve as a crucial testbed for evaluating the next-generation MFMs and as a call to the community to develop AI systems capable of comprehending human world dynamics through the video modality.

Summary

AI-Generated Summary

PDF192November 13, 2024