자기 회귀 모델로부터 적응을 통한 확산 언어 모델의 확장
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
October 23, 2024
저자: Shansan Gong, Shivam Agarwal, Yizhe Zhang, Jiacheng Ye, Lin Zheng, Mukai Li, Chenxin An, Peilin Zhao, Wei Bi, Jiawei Han, Hao Peng, Lingpeng Kong
cs.AI
초록
확산 언어 모델(Diffusion Language Models, DLMs)은 텍스트 생성 모델링을 위한 유망한 새로운 패러다임으로 등장했으며, 자기회귀(AR) 모델의 한계를 해결할 수 있는 잠재력을 가지고 있습니다. 그러나 현재의 DLMs는 AR 모델과 비교했을 때 규모가 작고, 언어 모델링 벤치마크에서 공정한 비교가 부족합니다. 게다가 대규모로부터 확산 모델을 처음부터 훈련하는 것은 여전히 어려운 과제입니다. AR 언어 모델의 오픈 소스가 널리 사용되고 있는 상황에서, 우리는 이러한 모델들을 채택하여 텍스트 확산 모델을 구축하는 것을 제안합니다. 우리는 AR 및 확산 모델링 목표 사이의 연결을 보여주고, 확산 모델을 훈련하기 위한 간단한 지속적 사전 훈련 방법을 소개합니다. 언어 모델링, 추론, 상식적 벤치마크에 대한 체계적인 평가를 통해, 우리는 127M부터 7B까지의 매개변수를 가진 AR 모델(GPT2 및 LLaMA)을 200B 토큰 미만으로 훈련하여 확산 모델인 DiffuGPT 및 DiffuLLaMA로 변환할 수 있음을 보여줍니다. 실험 결과는 이러한 모델이 이전 DLMs보다 우수하며 AR 모델과 경쟁력을 갖는 것을 나타냅니다. 우리는 유창한 텍스트 생성, 문맥 내 학습, 프롬프트 재정렬 없이 중간을 채우는 등의 기능을 수행할 수 있는 127M, 355M, 7B 매개변수를 갖는 DLMs 모음을 공개합니다. (https://github.com/HKUNLP/DiffuLLaMA)
English
Diffusion Language Models (DLMs) have emerged as a promising new paradigm for
text generative modeling, potentially addressing limitations of autoregressive
(AR) models. However, current DLMs have been studied at a smaller scale
compared to their AR counterparts and lack fair comparison on language modeling
benchmarks. Additionally, training diffusion models from scratch at scale
remains challenging. Given the prevalence of open-source AR language models, we
propose adapting these models to build text diffusion models. We demonstrate
connections between AR and diffusion modeling objectives and introduce a simple
continual pre-training approach for training diffusion models. Through
systematic evaluation on language modeling, reasoning, and commonsense
benchmarks, we show that we can convert AR models ranging from 127M to 7B
parameters (GPT2 and LLaMA) into diffusion models DiffuGPT and DiffuLLaMA,
using less than 200B tokens for training. Our experimental results reveal that
these models outperform earlier DLMs and are competitive with their AR
counterparts. We release a suite of DLMs (with 127M, 355M, and 7B parameters)
capable of generating fluent text, performing in-context learning, filling in
the middle without prompt re-ordering, and following instructions
https://github.com/HKUNLP/DiffuLLaMA.Summary
AI-Generated Summary