언어 모델링을 위한 연속 확산 모델
Continuous Diffusion Model for Language Modeling
February 17, 2025
저자: Jaehyeong Jo, Sung Ju Hwang
cs.AI
초록
확산 모델은 이산 범주형 데이터 모델링에서 자기회귀 모델의 유망한 대안으로 부상했습니다. 그러나 이산 데이터 공간에서 직접 작동하는 확산 모델은 이산 상태 간 전환 과정에서 신호가 손실되기 때문에 반복적 정제의 힘을 완전히 활용하지 못합니다. 기존의 이산 데이터를 위한 연속 확산 모델은 이산 접근법에 비해 제한된 성능을 보이며, 둘 간의 명확하지 않은 연결은 이산 데이터를 위한 확산 모델의 발전을 제한합니다. 본 연구에서는 기저 범주 분포의 기하학을 통합한 언어 모델링을 위한 연속 확산 모델을 제안합니다. 우리는 이산 확산과 통계적 다양체 위의 연속 흐름 간의 연결을 확립하고, 이 유사성을 바탕으로 기존 이산 확산 모델을 일반화하는 간단한 확산 과정 설계를 소개합니다. 또한, 방사형 대칭성을 기반으로 한 시뮬레이션 없는 학습 프레임워크와 다양체의 고차원성을 해결하기 위한 간단한 기법을 제안합니다. 언어 모델링 벤치마크 및 다른 모달리티에 대한 포괄적인 실험을 통해 우리의 방법이 기존 이산 확산 모델을 능가하고 자기회귀 모델의 성능에 근접함을 보여줍니다. 코드는 https://github.com/harryjo97/RDLM에서 확인할 수 있습니다.
English
Diffusion models have emerged as a promising alternative to autoregressive
models in modeling discrete categorical data. Yet diffusion models that
directly work on discrete data space do not fully exploit the power of
iterative refinement, as the signals are lost during the transition between
discrete states. Existing continuous diffusion models for discrete data have
limited performance compared to discrete approaches, and the unclear link
between them restricts the development of diffusion models for discrete data.
In this work, we propose a continuous diffusion model for language modeling
that incorporates the geometry of the underlying categorical distribution. We
establish a connection between the discrete diffusion and continuous flow on
the statistical manifold, and building on the analogy, we introduce a simple
design for the diffusion process that generalizes previous discrete diffusion
models. We further propose a simulation-free training framework based on radial
symmetry and a simple technique to address the high dimensionality of the
manifold. Comprehensive experiments on language modeling benchmarks and other
modalities show that our method outperforms existing discrete diffusion models
and approaches the performance of autoregressive models. Codes available at
https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.Summary
AI-Generated Summary