Uno studio empirico sull'addestramento autoregressivo da video
An Empirical Study of Autoregressive Pre-training from Videos
January 9, 2025
Autori: Jathushan Rajasegaran, Ilija Radosavovic, Rahul Ravishankar, Yossi Gandelsman, Christoph Feichtenhofer, Jitendra Malik
cs.AI
Abstract
Studiamo empiricamente il pre-training autoregressivo da video. Per condurre il nostro studio, costruiamo una serie di modelli video autoregressivi, chiamati Toto. Trattiamo i video come sequenze di token visivi e addestriamo modelli transformer per prevedere in modo autoregressivo i token futuri. I nostri modelli vengono pre-istrutti su un dataset diversificato di video e immagini che comprende oltre 1 trilione di token visivi. Esploriamo diverse scelte architetturali, di addestramento e di progettazione dell'inferenza. Valutiamo le rappresentazioni visive apprese su una serie di compiti successivi, tra cui riconoscimento di immagini, classificazione video, tracciamento oggetti e robotica. I nostri risultati dimostrano che, nonostante i minimi bias induttivi, il pre-training autoregressivo porta a prestazioni competitive su tutti i benchmark. Infine, scopriamo che aumentando le dimensioni dei nostri modelli video si ottengono curve di scalabilità simili a quelle osservate nei modelli linguistici, sebbene con un tasso diverso. Maggiori dettagli su https://brjathu.github.io/toto/
English
We empirically study autoregressive pre-training from videos. To perform our
study, we construct a series of autoregressive video models, called Toto. We
treat videos as sequences of visual tokens and train transformer models to
autoregressively predict future tokens. Our models are pre-trained on a diverse
dataset of videos and images comprising over 1 trillion visual tokens. We
explore different architectural, training, and inference design choices. We
evaluate the learned visual representations on a range of downstream tasks
including image recognition, video classification, object tracking, and
robotics. Our results demonstrate that, despite minimal inductive biases,
autoregressive pre-training leads to competitive performance across all
benchmarks. Finally, we find that scaling our video models results in similar
scaling curves to those seen in language models, albeit with a different rate.
More details at https://brjathu.github.io/toto/Summary
AI-Generated Summary