다중 모달 잠재 언어 모델링과 다음 토큰 확산
Multimodal Latent Language Modeling with Next-Token Diffusion
December 11, 2024
저자: Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI
초록
다중 모달 생성 모델은 이산 데이터(예: 텍스트와 코드)와 연속 데이터(예: 이미지, 오디오, 비디오)를 모두 처리하기 위한 통합된 접근 방식이 필요합니다. 본 연구에서는 인과 트랜스포머를 사용하여 연속 및 이산 데이터를 매끄럽게 통합하는 잠재 언어 모델링(Latent Language Modeling, LatentLM)을 제안합니다. 구체적으로, 우리는 변이형 오토인코더(Variational Autoencoder, VAE)를 사용하여 연속 데이터를 잠재 벡터로 표현하고, 이러한 벡터의 자기회귀 생성을 위해 다음 토큰 확산을 도입합니다. 또한, 자기회귀 모델링에 중요한 붕괴 분산 문제를 해결하기 위해 시그마-VAE를 개발합니다. 다양한 실험을 통해 LatentLM의 효과를 다양한 모달리티에서 입증합니다. 이미지 생성에서 LatentLM은 성능과 확장성 모두에서 Diffusion 트랜스포머를 능가합니다. 다중 모달 대형 언어 모델에 통합되면 LatentLM은 다중 모달 생성과 이해를 통합하는 일반 목적의 인터페이스를 제공합니다. 실험 결과는 LatentLM이 Transfusion 및 벡터 양자화 모델과 비교하여 훈련 토큰 확장 설정에서 우수한 성능을 달성함을 보여줍니다. 텍스트 음성 합성에서 LatentLM은 화자 유사성과 견고성에서 최첨단 VALL-E 2 모델을 능가하면서 10배 더 적은 디코딩 단계가 필요합니다. 이러한 결과는 LatentLM이 대규모 다중 모달 모델을 발전시키기 위한 매우 효과적이고 확장 가능한 접근 방식으로 확립됨을 보여줍니다.
English
Multimodal generative models require a unified approach to handle both
discrete data (e.g., text and code) and continuous data (e.g., image, audio,
video). In this work, we propose Latent Language Modeling (LatentLM), which
seamlessly integrates continuous and discrete data using causal Transformers.
Specifically, we employ a variational autoencoder (VAE) to represent continuous
data as latent vectors and introduce next-token diffusion for autoregressive
generation of these vectors. Additionally, we develop sigma-VAE to address
the challenges of variance collapse, which is crucial for autoregressive
modeling. Extensive experiments demonstrate the effectiveness of LatentLM
across various modalities. In image generation, LatentLM surpasses Diffusion
Transformers in both performance and scalability. When integrated into
multimodal large language models, LatentLM provides a general-purpose interface
that unifies multimodal generation and understanding. Experimental results show
that LatentLM achieves favorable performance compared to Transfusion and vector
quantized models in the setting of scaling up training tokens. In
text-to-speech synthesis, LatentLM outperforms the state-of-the-art VALL-E 2
model in speaker similarity and robustness, while requiring 10x fewer decoding
steps. The results establish LatentLM as a highly effective and scalable
approach to advance large multimodal models.