Um Estudo Empírico de Pré-treinamento Autoregressivo a partir de Vídeos
An Empirical Study of Autoregressive Pre-training from Videos
January 9, 2025
Autores: Jathushan Rajasegaran, Ilija Radosavovic, Rahul Ravishankar, Yossi Gandelsman, Christoph Feichtenhofer, Jitendra Malik
cs.AI
Resumo
Estudamos empiricamente o pré-treinamento autoregressivo a partir de vídeos. Para realizar nosso estudo, construímos uma série de modelos de vídeo autoregressivos, chamados de Toto. Tratamos os vídeos como sequências de tokens visuais e treinamos modelos de transformer para prever autoregressivamente os tokens futuros. Nossos modelos são pré-treinados em um conjunto de dados diversificado de vídeos e imagens compreendendo mais de 1 trilhão de tokens visuais. Exploramos diferentes escolhas de arquitetura, treinamento e design de inferência. Avaliamos as representações visuais aprendidas em uma variedade de tarefas secundárias, incluindo reconhecimento de imagem, classificação de vídeo, rastreamento de objetos e robótica. Nossos resultados demonstram que, apesar de viéses indutivos mínimos, o pré-treinamento autoregressivo leva a um desempenho competitivo em todos os benchmarks. Por fim, descobrimos que o dimensionamento de nossos modelos de vídeo resulta em curvas de dimensionamento semelhantes às vistas em modelos de linguagem, embora com uma taxa diferente. Mais detalhes em https://brjathu.github.io/toto/
English
We empirically study autoregressive pre-training from videos. To perform our
study, we construct a series of autoregressive video models, called Toto. We
treat videos as sequences of visual tokens and train transformer models to
autoregressively predict future tokens. Our models are pre-trained on a diverse
dataset of videos and images comprising over 1 trillion visual tokens. We
explore different architectural, training, and inference design choices. We
evaluate the learned visual representations on a range of downstream tasks
including image recognition, video classification, object tracking, and
robotics. Our results demonstrate that, despite minimal inductive biases,
autoregressive pre-training leads to competitive performance across all
benchmarks. Finally, we find that scaling our video models results in similar
scaling curves to those seen in language models, albeit with a different rate.
More details at https://brjathu.github.io/toto/Summary
AI-Generated Summary