ChatPaper.aiChatPaper

Hacia una comprensión universal de videos de fútbol

Towards Universal Soccer Video Understanding

December 2, 2024
Autores: Jiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI

Resumen

Como un deporte celebrado a nivel mundial, el fútbol ha atraído un gran interés de los aficionados de todo el mundo. Este documento tiene como objetivo desarrollar un marco multi-modal integral para la comprensión de videos de fútbol. Específicamente, realizamos las siguientes contribuciones en este documento: (i) presentamos SoccerReplay-1988, el conjunto de datos multi-modal de fútbol más grande hasta la fecha, que incluye videos y anotaciones detalladas de 1,988 partidos completos, con un pipeline de anotación automatizado; (ii) presentamos el primer modelo base visual-lenguaje en el dominio del fútbol, MatchVision, que aprovecha la información espacio-temporal en videos de fútbol y destaca en varias tareas posteriores; (iii) realizamos experimentos extensos y estudios de ablación sobre clasificación de eventos, generación de comentarios y reconocimiento de faltas desde múltiples vistas. MatchVision demuestra un rendimiento de vanguardia en todos ellos, superando sustancialmente a los modelos existentes, lo que resalta la superioridad de nuestros datos y modelo propuestos. Creemos que este trabajo ofrecerá un paradigma estándar para la investigación en comprensión de deportes.
English
As a globally celebrated sport, soccer has attracted widespread interest from fans all over the world. This paper aims to develop a comprehensive multi-modal framework for soccer video understanding. Specifically, we make the following contributions in this paper: (i) we introduce SoccerReplay-1988, the largest multi-modal soccer dataset to date, featuring videos and detailed annotations from 1,988 complete matches, with an automated annotation pipeline; (ii) we present the first visual-language foundation model in the soccer domain, MatchVision, which leverages spatiotemporal information across soccer videos and excels in various downstream tasks; (iii) we conduct extensive experiments and ablation studies on event classification, commentary generation, and multi-view foul recognition. MatchVision demonstrates state-of-the-art performance on all of them, substantially outperforming existing models, which highlights the superiority of our proposed data and model. We believe that this work will offer a standard paradigm for sports understanding research.

Summary

AI-Generated Summary

PDF122December 6, 2024