Verso la Comprensione Universale dei Video di Calcio
Towards Universal Soccer Video Understanding
December 2, 2024
Autori: Jiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
Abstract
Il calcio, uno sport celebrato a livello globale, ha attirato un vasto interesse da parte dei tifosi di tutto il mondo. Questo articolo si propone di sviluppare un completo framework multimodale per la comprensione dei video di calcio. In particolare, apportiamo i seguenti contributi in questo articolo: (i) presentiamo SoccerReplay-1988, il più grande dataset multimodale di calcio ad oggi, che include video e dettagliate annotazioni di 1.988 partite complete, con un processo di annotazione automatizzato; (ii) introduciamo il primo modello fondamentale di visual-language nel dominio del calcio, MatchVision, che sfrutta informazioni spazio-temporali nei video di calcio e eccelle in vari compiti successivi; (iii) conduciamo estesi esperimenti e studi di ablation sulla classificazione degli eventi, generazione di commenti e riconoscimento di falli da diverse prospettive. MatchVision dimostra prestazioni all'avanguardia su tutti questi fronti, superando notevolmente i modelli esistenti, evidenziando la superiorità dei nostri dati e del nostro modello proposti. Crediamo che questo lavoro possa offrire un paradigma standard per la ricerca sulla comprensione degli sport.
English
As a globally celebrated sport, soccer has attracted widespread interest from
fans all over the world. This paper aims to develop a comprehensive multi-modal
framework for soccer video understanding. Specifically, we make the following
contributions in this paper: (i) we introduce SoccerReplay-1988, the largest
multi-modal soccer dataset to date, featuring videos and detailed annotations
from 1,988 complete matches, with an automated annotation pipeline; (ii) we
present the first visual-language foundation model in the soccer domain,
MatchVision, which leverages spatiotemporal information across soccer videos
and excels in various downstream tasks; (iii) we conduct extensive experiments
and ablation studies on event classification, commentary generation, and
multi-view foul recognition. MatchVision demonstrates state-of-the-art
performance on all of them, substantially outperforming existing models, which
highlights the superiority of our proposed data and model. We believe that this
work will offer a standard paradigm for sports understanding research.Summary
AI-Generated Summary