TOMATO: Bewertung der visuellen zeitlichen Denkfähigkeiten in multimodalen Grundlagenmodellen
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models
October 30, 2024
Autoren: Ziyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan
cs.AI
Zusammenfassung
Bestehende Benchmarks heben oft die bemerkenswerte Leistung hervor, die von modernen Multimodalen Grundlagenmodellen (MFMs) erzielt wird, um den zeitlichen Kontext für das Verständnis von Videos zu nutzen. Doch wie gut führen die Modelle tatsächlich visuelle zeitliche Schlussfolgerungen durch? Unsere Untersuchung bestehender Benchmarks zeigt, dass diese Fähigkeit von MFMs wahrscheinlich überschätzt wird, da viele Fragen durch die Verwendung eines einzelnen, weniger oder nicht in der richtigen Reihenfolge angeordneten Frames gelöst werden können. Um aktuelle visuelle zeitliche Schlussfolgerungsaufgaben systematisch zu untersuchen, schlagen wir drei Prinzipien mit entsprechenden Metriken vor: (1) Multi-Frame-Gewinn, (2) Rahmenreihenfolgensensitivität und (3) Rahmeninformationsungleichheit. Unter Einhaltung dieser Prinzipien stellen wir TOMATO vor, Temporale Schlussfolgerung Multimodale Evaluation, einen neuartigen Benchmark, der entwickelt wurde, um die zeitlichen Schlussfolgerungsfähigkeiten von MFMs beim Verständnis von Videos rigoros zu bewerten. TOMATO umfasst 1.484 sorgfältig kuratierte, menschenannotierte Fragen, die sechs Aufgaben (d.h. Aktionsanzahl, Richtung, Rotation, Form & Trend, Geschwindigkeit & Frequenz und visuelle Hinweise) abdecken und auf 1.417 Videos angewendet werden, darunter 805 selbst aufgenommene und generierte Videos, die menschenzentrierte, realweltliche und simulierte Szenarien umfassen. Unsere umfassende Evaluation zeigt eine mensch-Modell-Leistungslücke von 57,3% beim bestperformenden Modell auf. Darüber hinaus zeigt unsere eingehende Analyse grundlegendere Einschränkungen über diese Lücke hinaus bei aktuellen MFMs auf. Obwohl sie Ereignisse in isolierten Frames genau erkennen können, scheitern sie daran, diese Frames als kontinuierliche Sequenz zu interpretieren. Wir sind der Überzeugung, dass TOMATO als entscheidende Testumgebung für die Bewertung der Multimodalen Grundlagenmodelle der nächsten Generation dienen wird und die Gemeinschaft dazu aufrufen wird, KI-Systeme zu entwickeln, die in der Lage sind, die Dynamik der menschlichen Welt durch die Videomodalität zu verstehen.
English
Existing benchmarks often highlight the remarkable performance achieved by
state-of-the-art Multimodal Foundation Models (MFMs) in leveraging temporal
context for video understanding. However, how well do the models truly perform
visual temporal reasoning? Our study of existing benchmarks shows that this
capability of MFMs is likely overestimated as many questions can be solved by
using a single, few, or out-of-order frames. To systematically examine current
visual temporal reasoning tasks, we propose three principles with corresponding
metrics: (1) Multi-Frame Gain, (2) Frame Order Sensitivity, and (3) Frame
Information Disparity. Following these principles, we introduce TOMATO,
Temporal Reasoning Multimodal Evaluation, a novel benchmark crafted to
rigorously assess MFMs' temporal reasoning capabilities in video understanding.
TOMATO comprises 1,484 carefully curated, human-annotated questions spanning
six tasks (i.e., action count, direction, rotation, shape & trend, velocity &
frequency, and visual cues), applied to 1,417 videos, including 805
self-recorded and -generated videos, that encompass human-centric, real-world,
and simulated scenarios. Our comprehensive evaluation reveals a human-model
performance gap of 57.3% with the best-performing model. Moreover, our in-depth
analysis uncovers more fundamental limitations beyond this gap in current MFMs.
While they can accurately recognize events in isolated frames, they fail to
interpret these frames as a continuous sequence. We believe TOMATO will serve
as a crucial testbed for evaluating the next-generation MFMs and as a call to
the community to develop AI systems capable of comprehending human world
dynamics through the video modality.Summary
AI-Generated Summary