TRecViT: Un Trasformatore Video Ricorrente

TRecViT: A Recurrent Video Transformer

December 18, 2024
Autori: Viorica Pătrăucean, Xu Owen He, Joseph Heyward, Chuhan Zhang, Mehdi S. M. Sajjadi, George-Cristian Muraru, Artem Zholus, Mahdi Karami, Ross Goroshin, Yutian Chen, Simon Osindero, João Carreira, Razvan Pascanu
cs.AI

Abstract

Proponiamo un nuovo blocco per la modellazione video. Si basa su una fattorizzazione spazio-tempo-canale con blocchi dedicati per ciascuna dimensione: le unità ricorrenti lineari con gate (LRU) eseguono la miscelazione delle informazioni nel tempo, i livelli di autoattenzione eseguono la miscelazione nello spazio e gli MLP nei canali. L'architettura risultante TRecViT si comporta bene su compiti sparsi e densi, addestrati in regimi supervisionati o auto-supervisionati. In particolare, il nostro modello è causale e supera o è al pari di un modello di sola attenzione ViViT-L su set di dati video su larga scala (SSv2, Kinetics400), pur avendo 3 volte meno parametri, un'occupazione di memoria 12 volte più piccola e un conteggio FLOPs 5 volte inferiore. Il codice e i checkpoint saranno resi disponibili online su https://github.com/google-deepmind/trecvit.
English
We propose a novel block for video modelling. It relies on a time-space-channel factorisation with dedicated blocks for each dimension: gated linear recurrent units (LRUs) perform information mixing over time, self-attention layers perform mixing over space, and MLPs over channels. The resulting architecture TRecViT performs well on sparse and dense tasks, trained in supervised or self-supervised regimes. Notably, our model is causal and outperforms or is on par with a pure attention model ViViT-L on large scale video datasets (SSv2, Kinetics400), while having 3times less parameters, 12times smaller memory footprint, and 5times lower FLOPs count. Code and checkpoints will be made available online at https://github.com/google-deepmind/trecvit.

Summary

AI-Generated Summary

PDF123December 23, 2024