TRecViT: Um Transformador de Vídeo Recorrente

TRecViT: A Recurrent Video Transformer

December 18, 2024
Autores: Viorica Pătrăucean, Xu Owen He, Joseph Heyward, Chuhan Zhang, Mehdi S. M. Sajjadi, George-Cristian Muraru, Artem Zholus, Mahdi Karami, Ross Goroshin, Yutian Chen, Simon Osindero, João Carreira, Razvan Pascanu
cs.AI

Resumo

Propomos um novo bloco para modelagem de vídeo. Ele se baseia em uma fatorização tempo-espaço-canal com blocos dedicados para cada dimensão: unidades recorrentes lineares com portas (LRUs) realizam a mistura de informações ao longo do tempo, camadas de autoatenção realizam a mistura no espaço e MLPs nos canais. A arquitetura resultante, TRecViT, apresenta bom desempenho em tarefas esparsas e densas, treinadas em regimes supervisionados ou auto-supervisionados. Notavelmente, nosso modelo é causal e supera ou está em pé de igualdade com um modelo de atenção pura, ViViT-L, em conjuntos de dados de vídeo em grande escala (SSv2, Kinetics400), enquanto possui 3 vezes menos parâmetros, uma pegada de memória 12 vezes menor e uma contagem de FLOPs 5 vezes menor. O código e os pontos de verificação estarão disponíveis online em https://github.com/google-deepmind/trecvit.
English
We propose a novel block for video modelling. It relies on a time-space-channel factorisation with dedicated blocks for each dimension: gated linear recurrent units (LRUs) perform information mixing over time, self-attention layers perform mixing over space, and MLPs over channels. The resulting architecture TRecViT performs well on sparse and dense tasks, trained in supervised or self-supervised regimes. Notably, our model is causal and outperforms or is on par with a pure attention model ViViT-L on large scale video datasets (SSv2, Kinetics400), while having 3times less parameters, 12times smaller memory footprint, and 5times lower FLOPs count. Code and checkpoints will be made available online at https://github.com/google-deepmind/trecvit.

Summary

AI-Generated Summary

PDF123December 23, 2024