LARP: 학습된 자기 회귀 생성 사전을 사용한 비디오 토큰화

LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior

October 28, 2024
저자: Hanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, Abhinav Shrivastava
cs.AI

초록

우리는 LARP를 제시합니다. 이는 자기회귀 생성 모델을 위한 현재 비디오 토큰화 방법의 한계를 극복하기 위해 설계된 혁신적인 비디오 토크나이저입니다. 지역 시각 패치를 직접 이산 토큰으로 인코딩하는 전통적인 패치별 토크나이저와는 달리, LARP는 학습된 전체적인 쿼리 세트를 사용하여 시각적 콘텐츠에서 정보를 수집하는 전체적인 토크나이제이션 체계를 도입합니다. 이 설계를 통해 LARP는 지역 패치 수준 정보에 국한되지 않고 더 많은 전역적이고 의미론적인 표현을 포착할 수 있습니다. 더불어, 이는 임의의 수의 이산 토큰을 지원하여 작업의 특정 요구에 기반한 적응적이고 효율적인 토크나이제이션을 가능하게 합니다. 이산 토큰 공간을 하류 자기회귀 생성 작업에 맞추기 위해, LARP는 훈련 시 다음 토큰을 예측하는 경량 자기회귀 트랜스포머를 통합합니다. 훈련 중에 사전 모델을 통합함으로써, LARP는 비디오 재구성에 최적화된 잠재 공간을 학습할 뿐만 아니라 자기회귀 생성에 보다 적합한 방식으로 구조화된 잠재 공간을 학습합니다. 더불어, 이 과정은 이산 토큰에 대한 순차적 순서를 정의하며, 훈련 중에 이들을 최적의 구성으로 점진적으로 이동시켜 추론 시 더 부드럽고 정확한 자기회귀 생성을 보장합니다. 포괄적인 실험은 LARP의 강력한 성능을 입증하며, UCF101 클래스 조건부 비디오 생성 벤치마크에서 최신 FVD를 달성합니다. LARP는 자기회귀 모델과 비디오의 호환성을 향상시키고 통합적이고 고품질의 다중 모달 대형 언어 모델(MLLMs) 구축의 잠재력을 열어줍니다.
English
We present LARP, a novel video tokenizer designed to overcome limitations in current video tokenization methods for autoregressive (AR) generative models. Unlike traditional patchwise tokenizers that directly encode local visual patches into discrete tokens, LARP introduces a holistic tokenization scheme that gathers information from the visual content using a set of learned holistic queries. This design allows LARP to capture more global and semantic representations, rather than being limited to local patch-level information. Furthermore, it offers flexibility by supporting an arbitrary number of discrete tokens, enabling adaptive and efficient tokenization based on the specific requirements of the task. To align the discrete token space with downstream AR generation tasks, LARP integrates a lightweight AR transformer as a training-time prior model that predicts the next token on its discrete latent space. By incorporating the prior model during training, LARP learns a latent space that is not only optimized for video reconstruction but is also structured in a way that is more conducive to autoregressive generation. Moreover, this process defines a sequential order for the discrete tokens, progressively pushing them toward an optimal configuration during training, ensuring smoother and more accurate AR generation at inference time. Comprehensive experiments demonstrate LARP's strong performance, achieving state-of-the-art FVD on the UCF101 class-conditional video generation benchmark. LARP enhances the compatibility of AR models with videos and opens up the potential to build unified high-fidelity multimodal large language models (MLLMs).

Summary

AI-Generated Summary

PDF82November 16, 2024