ChatPaper.aiChatPaper

Vinoground: 짧은 비디오를 통한 밀도 있는 시간적 추론에 대한 LMMs의 검토

Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos

October 3, 2024
저자: Jianrui Zhang, Mu Cai, Yong Jae Lee
cs.AI

초록

요즘 현대의 대형 다중 모달 모델(LMMs)이 짧은 비디오 이해와 관련된 주요 도전 과제 대부분을 해결했다는 감정이 점점 더 증가하고 있습니다. 결과적으로 학계와 산업 모두가 점차 더 복잡한 도전 과제로 주목을 옮기고 있는 것으로 보입니다. 그러나 실제로 그런 것일까요? 우리의 연구에 따르면 LMMs는 여전히 짧은 비디오를 다룰 때에도 많은 기본적인 추론 능력이 부족하다는 것을 보여줍니다. 우리는 1000개의 짧고 자연스러운 비디오 캡션 쌍을 포함하는 시간적 반사적 LMM 평가 벤치마크 Vinoground를 소개합니다. 우리는 기존의 LMMs가 서로 다른 행동과 물체 변환 사이의 시간적 차이를 구별하는 데 심각하게 어려움을 겪는다는 것을 보여줍니다. 예를 들어, 최고의 모델 GPT-4o는 우리의 텍스트 및 비디오 점수에서 약 50%만 달성하며, 약 90%인 인간 기준과 비교했을 때 큰 차이를 보입니다. 모든 오픈 소스 다중 모달 모델 및 CLIP 기반 모델은 대부분 무작위 기회 성능을 보여주며 훨씬 나쁜 결과를 얻습니다. 이를 통해 우리는 짧은 비디오에서의 시간적 추론이 아직 완전히 해결되지 않은 문제임을 밝힙니다. 데이터셋과 평가 코드는 https://vinoground.github.io에서 제공됩니다.
English
There has been growing sentiment recently that modern large multimodal models (LMMs) have addressed most of the key challenges related to short video comprehension. As a result, both academia and industry are gradually shifting their attention towards the more complex challenges posed by understanding long-form videos. However, is this really the case? Our studies indicate that LMMs still lack many fundamental reasoning capabilities even when dealing with short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation benchmark encompassing 1000 short and natural video-caption pairs. We demonstrate that existing LMMs severely struggle to distinguish temporal differences between different actions and object transformations. For example, the best model GPT-4o only obtains ~50% on our text and video scores, showing a large gap compared to the human baseline of ~90%. All open-source multimodal models and CLIP-based models perform much worse, producing mostly random chance performance. Through this work, we shed light onto the fact that temporal reasoning in short videos is a problem yet to be fully solved. The dataset and evaluation code are available at https://vinoground.github.io.

Summary

AI-Generated Summary

PDF72November 16, 2024