TOMATO: Bewertung der visuellen zeitlichen Denkfähigkeiten in multimodalen Grundlagenmodellen

Zusammenfassung

Bestehende Benchmarks heben oft die bemerkenswerte Leistung hervor, die von modernen Multimodalen Grundlagenmodellen (MFMs) erzielt wird, um den zeitlichen Kontext für das Verständnis von Videos zu nutzen. Doch wie gut führen die Modelle tatsächlich visuelle zeitliche Schlussfolgerungen durch? Unsere Untersuchung bestehender Benchmarks zeigt, dass diese Fähigkeit von MFMs wahrscheinlich überschätzt wird, da viele Fragen durch die Verwendung eines einzelnen, weniger oder nicht in der richtigen Reihenfolge angeordneten Frames gelöst werden können. Um aktuelle visuelle zeitliche Schlussfolgerungsaufgaben systematisch zu untersuchen, schlagen wir drei Prinzipien mit entsprechenden Metriken vor: (1) Multi-Frame-Gewinn, (2) Rahmenreihenfolgensensitivität und (3) Rahmeninformationsungleichheit. Unter Einhaltung dieser Prinzipien stellen wir TOMATO vor, Temporale Schlussfolgerung Multimodale Evaluation, einen neuartigen Benchmark, der entwickelt wurde, um die zeitlichen Schlussfolgerungsfähigkeiten von MFMs beim Verständnis von Videos rigoros zu bewerten. TOMATO umfasst 1.484 sorgfältig kuratierte, menschenannotierte Fragen, die sechs Aufgaben (d.h. Aktionsanzahl, Richtung, Rotation, Form & Trend, Geschwindigkeit & Frequenz und visuelle Hinweise) abdecken und auf 1.417 Videos angewendet werden, darunter 805 selbst aufgenommene und generierte Videos, die menschenzentrierte, realweltliche und simulierte Szenarien umfassen. Unsere umfassende Evaluation zeigt eine mensch-Modell-Leistungslücke von 57,3% beim bestperformenden Modell auf. Darüber hinaus zeigt unsere eingehende Analyse grundlegendere Einschränkungen über diese Lücke hinaus bei aktuellen MFMs auf. Obwohl sie Ereignisse in isolierten Frames genau erkennen können, scheitern sie daran, diese Frames als kontinuierliche Sequenz zu interpretieren. Wir sind der Überzeugung, dass TOMATO als entscheidende Testumgebung für die Bewertung der Multimodalen Grundlagenmodelle der nächsten Generation dienen wird und die Gemeinschaft dazu aufrufen wird, KI-Systeme zu entwickeln, die in der Lage sind, die Dynamik der menschlichen Welt durch die Videomodalität zu verstehen.

English

Existing benchmarks often highlight the remarkable performance achieved by state-of-the-art Multimodal Foundation Models (MFMs) in leveraging temporal context for video understanding. However, how well do the models truly perform visual temporal reasoning? Our study of existing benchmarks shows that this capability of MFMs is likely overestimated as many questions can be solved by using a single, few, or out-of-order frames. To systematically examine current visual temporal reasoning tasks, we propose three principles with corresponding metrics: (1) Multi-Frame Gain, (2) Frame Order Sensitivity, and (3) Frame Information Disparity. Following these principles, we introduce TOMATO, Temporal Reasoning Multimodal Evaluation, a novel benchmark crafted to rigorously assess MFMs' temporal reasoning capabilities in video understanding. TOMATO comprises 1,484 carefully curated, human-annotated questions spanning six tasks (i.e., action count, direction, rotation, shape & trend, velocity & frequency, and visual cues), applied to 1,417 videos, including 805 self-recorded and -generated videos, that encompass human-centric, real-world, and simulated scenarios. Our comprehensive evaluation reveals a human-model performance gap of 57.3% with the best-performing model. Moreover, our in-depth analysis uncovers more fundamental limitations beyond this gap in current MFMs. While they can accurately recognize events in isolated frames, they fail to interpret these frames as a continuous sequence. We believe TOMATO will serve as a crucial testbed for evaluating the next-generation MFMs and as a call to the community to develop AI systems capable of comprehending human world dynamics through the video modality.

TOMATO: Bewertung der visuellen zeitlichen Denkfähigkeiten in multimodalen Grundlagenmodellen

TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Zusammenfassung

Summary

Support