LARP: Het tokeniseren van video's met een geleerde autoregressieve generatieve prior.

Samenvatting

We presenteren LARP, een nieuwe video-tokenizer die is ontworpen om beperkingen in huidige video-tokenisatiemethoden voor autoregressieve (AR) generatieve modellen te overwinnen. In tegenstelling tot traditionele patchgewijze tokenizers die lokale visuele patches rechtstreeks coderen in discrete tokens, introduceert LARP een holistisch tokenisatieschema dat informatie uit de visuele inhoud verzamelt met behulp van een reeks geleerde holistische queries. Deze ontwerp stelt LARP in staat om meer globale en semantische representaties vast te leggen, in plaats van beperkt te zijn tot lokale patch-niveau informatie. Bovendien biedt het flexibiliteit door ondersteuning van een willekeurig aantal discrete tokens, waardoor adaptieve en efficiënte tokenisatie mogelijk is op basis van de specifieke vereisten van de taak. Om de discrete tokenruimte af te stemmen op downstream AR-generatietaken, integreert LARP een lichtgewicht AR-transformator als een trainingstijdpriormodel dat het volgende token voorspelt in zijn discrete latente ruimte. Door het priormodel tijdens training op te nemen, leert LARP een latente ruimte die niet alleen geoptimaliseerd is voor videoreconstructie, maar ook gestructureerd is op een manier die meer bevorderlijk is voor autoregressieve generatie. Bovendien definieert dit proces een sequentiële volgorde voor de discrete tokens, waarbij ze progressief naar een optimale configuratie worden geduwd tijdens training, waardoor soepelere en nauwkeurigere AR-generatie bij inferentie wordt gegarandeerd. Uitgebreide experimenten tonen de sterke prestaties van LARP aan, waarbij het state-of-the-art FVD behaalt op de UCF101 klasse-geconditioneerde videogeneratiebenchmark. LARP verbetert de compatibiliteit van AR-modellen met video's en opent de mogelijkheid om verenigde hoogwaardige multimodale grote taalmodellen (MLLM's) te bouwen.

English

We present LARP, a novel video tokenizer designed to overcome limitations in current video tokenization methods for autoregressive (AR) generative models. Unlike traditional patchwise tokenizers that directly encode local visual patches into discrete tokens, LARP introduces a holistic tokenization scheme that gathers information from the visual content using a set of learned holistic queries. This design allows LARP to capture more global and semantic representations, rather than being limited to local patch-level information. Furthermore, it offers flexibility by supporting an arbitrary number of discrete tokens, enabling adaptive and efficient tokenization based on the specific requirements of the task. To align the discrete token space with downstream AR generation tasks, LARP integrates a lightweight AR transformer as a training-time prior model that predicts the next token on its discrete latent space. By incorporating the prior model during training, LARP learns a latent space that is not only optimized for video reconstruction but is also structured in a way that is more conducive to autoregressive generation. Moreover, this process defines a sequential order for the discrete tokens, progressively pushing them toward an optimal configuration during training, ensuring smoother and more accurate AR generation at inference time. Comprehensive experiments demonstrate LARP's strong performance, achieving state-of-the-art FVD on the UCF101 class-conditional video generation benchmark. LARP enhances the compatibility of AR models with videos and opens up the potential to build unified high-fidelity multimodal large language models (MLLMs).

LARP: Het tokeniseren van video's met een geleerde autoregressieve generatieve prior.

LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior

Samenvatting

Summary

Support