Efficiente Tokenizzazione di Video Lunghi tramite Ricostruzione di Patch basata su Coordinate.
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction
November 22, 2024
Autori: Huiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
cs.AI
Abstract
L'efficiente tokenizzazione dei video rimane una sfida nel training dei modelli di visione in grado di processare video lunghi. Una direzione promettente è lo sviluppo di un tokenizer in grado di codificare lunghi spezzoni video, poiché consentirebbe al tokenizer di sfruttare meglio la coerenza temporale dei video per la tokenizzazione. Tuttavia, addestrare i tokenizzatori esistenti su video lunghi comporta spesso un enorme costo di addestramento poiché vengono addestrati a ricostruire tutti i frame in una volta. In questo articolo, presentiamo CoordTok, un video tokenizer che apprende un mapping da rappresentazioni basate sulle coordinate alle patch corrispondenti dei video di input, ispirato ai recenti progressi nei modelli generativi 3D. In particolare, CoordTok codifica un video in rappresentazioni triplane fattorizzate e ricostruisce patch corrispondenti a coordinate (x,y,t) campionate casualmente. Ciò consente di addestrare grandi modelli di tokenizer direttamente su video lunghi senza richiedere risorse di addestramento eccessive. I nostri esperimenti mostrano che CoordTok può ridurre drasticamente il numero di token per codificare lunghi spezzoni video. Ad esempio, CoordTok può codificare un video di 128 frame con risoluzione 128x128 in 1280 token, mentre i baselines necessitano di 6144 o 8192 token per ottenere una qualità di ricostruzione simile. Mostriamo inoltre che questa efficiente tokenizzazione dei video consente un addestramento efficiente in termini di memoria di un transformer a diffusione in grado di generare 128 frame in una sola volta.
English
Efficient tokenization of videos remains a challenge in training vision
models that can process long videos. One promising direction is to develop a
tokenizer that can encode long video clips, as it would enable the tokenizer to
leverage the temporal coherence of videos better for tokenization. However,
training existing tokenizers on long videos often incurs a huge training cost
as they are trained to reconstruct all the frames at once. In this paper, we
introduce CoordTok, a video tokenizer that learns a mapping from
coordinate-based representations to the corresponding patches of input videos,
inspired by recent advances in 3D generative models. In particular, CoordTok
encodes a video into factorized triplane representations and reconstructs
patches that correspond to randomly sampled (x,y,t) coordinates. This allows
for training large tokenizer models directly on long videos without requiring
excessive training resources. Our experiments show that CoordTok can
drastically reduce the number of tokens for encoding long video clips. For
instance, CoordTok can encode a 128-frame video with 128times128 resolution
into 1280 tokens, while baselines need 6144 or 8192 tokens to achieve similar
reconstruction quality. We further show that this efficient video tokenization
enables memory-efficient training of a diffusion transformer that can generate
128 frames at once.Summary
AI-Generated Summary