ChatPaper.aiChatPaper

TRecViT: リカレントビデオトランスフォーマー

TRecViT: A Recurrent Video Transformer

December 18, 2024
著者: Viorica Pătrăucean, Xu Owen He, Joseph Heyward, Chuhan Zhang, Mehdi S. M. Sajjadi, George-Cristian Muraru, Artem Zholus, Mahdi Karami, Ross Goroshin, Yutian Chen, Simon Osindero, João Carreira, Razvan Pascanu
cs.AI

要旨

ビデオモデリング用の革新的なブロックを提案します。それは、時間-空間-チャネルの要素分解を活用し、各次元に専用のブロックを持っています。ゲート付き線形再帰ユニット(LRU)は時間にわたる情報の混合を行い、セルフアテンション層は空間にわたる混合を行い、MLPはチャネルにわたる混合を行います。この結果として得られるTRecViTアーキテクチャは、スパースおよび密なタスクにおいて優れたパフォーマンスを発揮し、教師ありまたは自己教師ありの訓練を受けます。特筆すべきは、当モデルが因果関係を持ち、大規模ビデオデータセット(SSv2、Kinetics400)において、パラメータが3倍少なく、メモリフットプリントが12倍小さく、FLOPs数が5倍少ないにもかかわらず、純粋なアテンションモデルViViT-Lを上回るか同等の性能を発揮する点です。コードとチェックポイントは、https://github.com/google-deepmind/trecvit でオンラインで公開されます。
English
We propose a novel block for video modelling. It relies on a time-space-channel factorisation with dedicated blocks for each dimension: gated linear recurrent units (LRUs) perform information mixing over time, self-attention layers perform mixing over space, and MLPs over channels. The resulting architecture TRecViT performs well on sparse and dense tasks, trained in supervised or self-supervised regimes. Notably, our model is causal and outperforms or is on par with a pure attention model ViViT-L on large scale video datasets (SSv2, Kinetics400), while having 3times less parameters, 12times smaller memory footprint, and 5times lower FLOPs count. Code and checkpoints will be made available online at https://github.com/google-deepmind/trecvit.

Summary

AI-Generated Summary

PDF134December 23, 2024