Het schalen van Diffusie Taalmodellen via Aanpassing van Autoregressieve Modellen
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
October 23, 2024
Auteurs: Shansan Gong, Shivam Agarwal, Yizhe Zhang, Jiacheng Ye, Lin Zheng, Mukai Li, Chenxin An, Peilin Zhao, Wei Bi, Jiawei Han, Hao Peng, Lingpeng Kong
cs.AI
Samenvatting
Diffusie Taalmodellen (DLM's) zijn naar voren gekomen als een veelbelovend nieuw paradigma voor tekstgeneratiemodellering, dat mogelijk beperkingen van autoregressieve (AR) modellen kan aanpakken. Echter, huidige DLM's zijn op een kleinere schaal bestudeerd in vergelijking met hun AR-tegenhangers en missen een eerlijke vergelijking op taalmodelleringsbenchmarks. Bovendien blijft het uitdagend om diffusiemodellen vanaf nul op grote schaal te trainen. Gezien de prevalentie van open-source AR-taalmodellen, stellen we voor om deze modellen aan te passen om tekst diffusiemodellen te bouwen. We tonen verbanden tussen AR- en diffusiemodelleringsdoelstellingen en introduceren een eenvoudige voortdurende pre-trainingbenadering voor het trainen van diffusiemodellen. Door systematische evaluatie op taalmodellerings-, redeneer- en gezond verstand-benchmarks laten we zien dat we AR-modellen variërend van 127M tot 7B parameters (GPT2 en LLaMA) kunnen omzetten in diffusiemodellen DiffuGPT en DiffuLLaMA, met minder dan 200B tokens voor training. Onze experimentele resultaten tonen aan dat deze modellen beter presteren dan eerdere DLM's en concurrerend zijn met hun AR-tegenhangers. We brengen een reeks DLM's uit (met 127M, 355M en 7B parameters) die in staat zijn om vloeiende tekst te genereren, in-context leren uit te voeren, het midden in te vullen zonder prompt-herordening, en instructies op te volgen.
English
Diffusion Language Models (DLMs) have emerged as a promising new paradigm for
text generative modeling, potentially addressing limitations of autoregressive
(AR) models. However, current DLMs have been studied at a smaller scale
compared to their AR counterparts and lack fair comparison on language modeling
benchmarks. Additionally, training diffusion models from scratch at scale
remains challenging. Given the prevalence of open-source AR language models, we
propose adapting these models to build text diffusion models. We demonstrate
connections between AR and diffusion modeling objectives and introduce a simple
continual pre-training approach for training diffusion models. Through
systematic evaluation on language modeling, reasoning, and commonsense
benchmarks, we show that we can convert AR models ranging from 127M to 7B
parameters (GPT2 and LLaMA) into diffusion models DiffuGPT and DiffuLLaMA,
using less than 200B tokens for training. Our experimental results reveal that
these models outperform earlier DLMs and are competitive with their AR
counterparts. We release a suite of DLMs (with 127M, 355M, and 7B parameters)
capable of generating fluent text, performing in-context learning, filling in
the middle without prompt re-ordering, and following instructions
https://github.com/HKUNLP/DiffuLLaMA.Summary
AI-Generated Summary