보편적인 축구 비디오 이해를 향하여
Towards Universal Soccer Video Understanding
December 2, 2024
저자: Jiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
초록
축구는 전 세계적으로 인기 있는 스포츠로, 세계 각지의 팬들로부터 폭넓은 관심을 받고 있습니다. 본 논문은 축구 비디오 이해를 위한 포괄적인 멀티모달 프레임워크를 개발하는 것을 목표로 합니다. 구체적으로, 본 논문에서는 다음과 같은 기여를 합니다: (i) 현재까지 가장 큰 멀티모달 축구 데이터셋인 SoccerReplay-1988을 소개합니다. 이 데이터셋은 1,988경기의 비디오와 상세한 주석을 갖추고 있으며 자동 주석 파이프라인을 특징으로 합니다; (ii) 축구 분야에서 시각-언어 기반 모델인 MatchVision을 제안합니다. 이 모델은 축구 비디오 전반에 걸쳐 시공간 정보를 활용하며 다양한 하위 작업에서 우수한 성과를 보입니다; (iii) 이벤트 분류, 코멘터리 생성, 다중 시점 파울 인식에 대한 포괄적인 실험과 제거 실험을 수행합니다. MatchVision은 모든 부분에서 최첨단 성능을 보여주며 기존 모델을 크게 능가하여 제안한 데이터와 모델의 우수성을 강조합니다. 본 연구가 스포츠 이해 연구에 대한 표준 패러다임을 제공할 것으로 믿습니다.
English
As a globally celebrated sport, soccer has attracted widespread interest from
fans all over the world. This paper aims to develop a comprehensive multi-modal
framework for soccer video understanding. Specifically, we make the following
contributions in this paper: (i) we introduce SoccerReplay-1988, the largest
multi-modal soccer dataset to date, featuring videos and detailed annotations
from 1,988 complete matches, with an automated annotation pipeline; (ii) we
present the first visual-language foundation model in the soccer domain,
MatchVision, which leverages spatiotemporal information across soccer videos
and excels in various downstream tasks; (iii) we conduct extensive experiments
and ablation studies on event classification, commentary generation, and
multi-view foul recognition. MatchVision demonstrates state-of-the-art
performance on all of them, substantially outperforming existing models, which
highlights the superiority of our proposed data and model. We believe that this
work will offer a standard paradigm for sports understanding research.Summary
AI-Generated Summary