잔차 벡터 양자화 기반의 토큰을 활용한 효율적인 생성 모델링
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens
December 13, 2024
저자: Jaehyeon Kim, Taehong Moon, Keon Lee, Jaewoong Cho
cs.AI
초록
우리는 벡터 양자화 생성 모델에서 고품질 생성을 위해 잔여 벡터 양자화(RVQ)의 사용을 탐구합니다. 이 양자화 기술은 더 깊은 토큰을 활용하여 더 높은 데이터 충실도를 유지합니다. 그러나 생성 모델에서 토큰 수를 증가시키면 추론 속도가 느려집니다. 이에 우리는 고품질 샘플을 생성하는 효율적인 RVQ 기반 이산 확산 모델인 ResGen을 소개합니다. 우리의 주요 아이디어는 개별 토큰이 아닌 집단 토큰의 벡터 임베딩을 직접 예측하는 것입니다. 더불어 제안된 토큰 마스킹 및 다중 토큰 예측 방법이 이산 확산 프로세스와 변분 추론을 사용한 원칙적인 확률적 프레임워크 내에서 정의될 수 있다는 것을 증명합니다. 우리는 ImageNet 256x256에서 조건부 이미지 생성 및 제로샷 텍스트 음성 합성과 같은 서로 다른 모달리티의 두 가지 어려운 작업에서 제안된 방법의 효과성과 일반화 가능성을 검증합니다. 실험 결과는 ResGen이 두 작업 모두에서 자동 회귀 대조군을 능가하여 뛰어난 성능을 제공하면서 샘플링 속도를 희생하지 않음을 보여줍니다. 더불어 RVQ의 깊이를 확장함에 따라 우리의 생성 모델은 유사한 크기의 기준 모델과 비교했을 때 향상된 생성 충실도 또는 더 빠른 샘플링 속도를 나타냅니다. 프로젝트 페이지는 https://resgen-genai.github.io에서 확인할 수 있습니다.
English
We explore the use of Residual Vector Quantization (RVQ) for high-fidelity
generation in vector-quantized generative models. This quantization technique
maintains higher data fidelity by employing more in-depth tokens. However,
increasing the token number in generative models leads to slower inference
speeds. To this end, we introduce ResGen, an efficient RVQ-based discrete
diffusion model that generates high-fidelity samples without compromising
sampling speed. Our key idea is a direct prediction of vector embedding of
collective tokens rather than individual ones. Moreover, we demonstrate that
our proposed token masking and multi-token prediction method can be formulated
within a principled probabilistic framework using a discrete diffusion process
and variational inference. We validate the efficacy and generalizability of the
proposed method on two challenging tasks across different modalities:
conditional image generation} on ImageNet 256x256 and zero-shot text-to-speech
synthesis. Experimental results demonstrate that ResGen outperforms
autoregressive counterparts in both tasks, delivering superior performance
without compromising sampling speed. Furthermore, as we scale the depth of RVQ,
our generative models exhibit enhanced generation fidelity or faster sampling
speeds compared to similarly sized baseline models. The project page can be
found at https://resgen-genai.github.io