Video-Aktionsdifferenzierung
Video Action Differencing
March 10, 2025
Autoren: James Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy
cs.AI
Zusammenfassung
Wie unterscheiden sich zwei Personen bei der Ausführung derselben Handlung? In dieser Arbeit führen wir Video Action Differencing (VidDiff) ein, eine neuartige Aufgabe, die darin besteht, subtile Unterschiede zwischen Videos derselben Handlung zu identifizieren. Diese Aufgabe hat viele Anwendungen, wie z. B. Coaching und Fertigkeitstraining. Um die Entwicklung in dieser neuen Aufgabe zu ermöglichen, erstellen wir zunächst VidDiffBench, einen Benchmark-Datensatz, der 549 Videopaare enthält, mit menschlichen Annotationen von 4.469 fein abgestuften Handlungsunterschieden und 2.075 Lokalisierungszeitstempeln, die angeben, wo diese Unterschiede auftreten. Unsere Experimente zeigen, dass VidDiffBench eine erhebliche Herausforderung für state-of-the-art große multimodale Modelle (LMMs) wie GPT-4o und Qwen2-VL darstellt. Durch die Analyse von Fehlfällen der LMMs auf VidDiffBench heben wir zwei zentrale Herausforderungen für diese Aufgabe hervor: die Lokalisierung relevanter Teilhandlungen über zwei Videos hinweg und den fein abgestuften Vergleich von Einzelbildern. Um diese zu bewältigen, schlagen wir die VidDiff-Methode vor, einen agentenbasierten Workflow, der die Aufgabe in drei Phasen unterteilt: Vorschlag von Handlungsunterschieden, Lokalisierung von Schlüsselbildern und Bilddifferenzierung, wobei jede Phase spezialisierte Foundation-Modelle nutzt. Um zukünftige Forschung in dieser neuen Aufgabe zu fördern, veröffentlichen wir den Benchmark unter https://huggingface.co/datasets/jmhb/VidDiffBench und den Code unter http://jmhb0.github.io/viddiff.
English
How do two individuals differ when performing the same action? In this work,
we introduce Video Action Differencing (VidDiff), the novel task of identifying
subtle differences between videos of the same action, which has many
applications, such as coaching and skill learning. To enable development on
this new task, we first create VidDiffBench, a benchmark dataset containing 549
video pairs, with human annotations of 4,469 fine-grained action differences
and 2,075 localization timestamps indicating where these differences occur. Our
experiments demonstrate that VidDiffBench poses a significant challenge for
state-of-the-art large multimodal models (LMMs), such as GPT-4o and Qwen2-VL.
By analyzing failure cases of LMMs on VidDiffBench, we highlight two key
challenges for this task: localizing relevant sub-actions over two videos and
fine-grained frame comparison. To overcome these, we propose the VidDiff
method, an agentic workflow that breaks the task into three stages: action
difference proposal, keyframe localization, and frame differencing, each stage
utilizing specialized foundation models. To encourage future research in this
new task, we release the benchmark at
https://huggingface.co/datasets/jmhb/VidDiffBench and code at
http://jmhb0.github.io/viddiff.Summary
AI-Generated Summary