LARP: Het tokeniseren van video's met een geleerde autoregressieve generatieve prior.
LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior
October 28, 2024
Auteurs: Hanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, Abhinav Shrivastava
cs.AI
Samenvatting
We presenteren LARP, een nieuwe video-tokenizer die is ontworpen om beperkingen in huidige video-tokenisatiemethoden voor autoregressieve (AR) generatieve modellen te overwinnen. In tegenstelling tot traditionele patchgewijze tokenizers die lokale visuele patches rechtstreeks coderen in discrete tokens, introduceert LARP een holistisch tokenisatieschema dat informatie uit de visuele inhoud verzamelt met behulp van een reeks geleerde holistische queries. Deze ontwerp stelt LARP in staat om meer globale en semantische representaties vast te leggen, in plaats van beperkt te zijn tot lokale patch-niveau informatie. Bovendien biedt het flexibiliteit door ondersteuning van een willekeurig aantal discrete tokens, waardoor adaptieve en efficiënte tokenisatie mogelijk is op basis van de specifieke vereisten van de taak. Om de discrete tokenruimte af te stemmen op downstream AR-generatietaken, integreert LARP een lichtgewicht AR-transformator als een trainingstijdpriormodel dat het volgende token voorspelt in zijn discrete latente ruimte. Door het priormodel tijdens training op te nemen, leert LARP een latente ruimte die niet alleen geoptimaliseerd is voor videoreconstructie, maar ook gestructureerd is op een manier die meer bevorderlijk is voor autoregressieve generatie. Bovendien definieert dit proces een sequentiële volgorde voor de discrete tokens, waarbij ze progressief naar een optimale configuratie worden geduwd tijdens training, waardoor soepelere en nauwkeurigere AR-generatie bij inferentie wordt gegarandeerd. Uitgebreide experimenten tonen de sterke prestaties van LARP aan, waarbij het state-of-the-art FVD behaalt op de UCF101 klasse-geconditioneerde videogeneratiebenchmark. LARP verbetert de compatibiliteit van AR-modellen met video's en opent de mogelijkheid om verenigde hoogwaardige multimodale grote taalmodellen (MLLM's) te bouwen.
English
We present LARP, a novel video tokenizer designed to overcome limitations in
current video tokenization methods for autoregressive (AR) generative models.
Unlike traditional patchwise tokenizers that directly encode local visual
patches into discrete tokens, LARP introduces a holistic tokenization scheme
that gathers information from the visual content using a set of learned
holistic queries. This design allows LARP to capture more global and semantic
representations, rather than being limited to local patch-level information.
Furthermore, it offers flexibility by supporting an arbitrary number of
discrete tokens, enabling adaptive and efficient tokenization based on the
specific requirements of the task. To align the discrete token space with
downstream AR generation tasks, LARP integrates a lightweight AR transformer as
a training-time prior model that predicts the next token on its discrete latent
space. By incorporating the prior model during training, LARP learns a latent
space that is not only optimized for video reconstruction but is also
structured in a way that is more conducive to autoregressive generation.
Moreover, this process defines a sequential order for the discrete tokens,
progressively pushing them toward an optimal configuration during training,
ensuring smoother and more accurate AR generation at inference time.
Comprehensive experiments demonstrate LARP's strong performance, achieving
state-of-the-art FVD on the UCF101 class-conditional video generation
benchmark. LARP enhances the compatibility of AR models with videos and opens
up the potential to build unified high-fidelity multimodal large language
models (MLLMs).Summary
AI-Generated Summary