Mise à l'échelle des modèles de langage de diffusion via l'adaptation à partir de modèles autorégressifs
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
October 23, 2024
Auteurs: Shansan Gong, Shivam Agarwal, Yizhe Zhang, Jiacheng Ye, Lin Zheng, Mukai Li, Chenxin An, Peilin Zhao, Wei Bi, Jiawei Han, Hao Peng, Lingpeng Kong
cs.AI
Résumé
Les Modèles de Langage par Diffusion (DLMs) ont émergé comme un nouveau paradigme prometteur pour la modélisation générative de texte, potentiellement en réponse aux limitations des modèles autorégressifs (AR). Cependant, les DLMs actuels ont été étudiés à une plus petite échelle par rapport à leurs homologues AR et manquent de comparaisons équitables sur les bancs d'essai de modélisation de langage. De plus, l'entraînement de modèles de diffusion à grande échelle à partir de zéro reste un défi. Étant donné la prévalence des modèles de langage AR en open source, nous proposons d'adapter ces modèles pour construire des modèles de diffusion de texte. Nous démontrons des liens entre les objectifs de modélisation AR et de diffusion et introduisons une approche simple de pré-entraînement continu pour l'entraînement de modèles de diffusion. À travers une évaluation systématique sur des bancs d'essai de modélisation de langage, de raisonnement et de bon sens, nous montrons que nous pouvons convertir des modèles AR allant de 127M à 7B de paramètres (GPT2 et LLaMA) en modèles de diffusion DiffuGPT et DiffuLLaMA, en utilisant moins de 200B de jetons pour l'entraînement. Nos résultats expérimentaux révèlent que ces modèles surpassent les DLMs antérieurs et sont compétitifs avec leurs homologues AR. Nous mettons à disposition une série de DLMs (avec 127M, 355M et 7B de paramètres) capables de générer un texte fluide, d'effectuer un apprentissage en contexte, de remplir le milieu sans réorganisation de la requête, et de suivre les instructions sur https://github.com/HKUNLP/DiffuLLaMA.
English
Diffusion Language Models (DLMs) have emerged as a promising new paradigm for
text generative modeling, potentially addressing limitations of autoregressive
(AR) models. However, current DLMs have been studied at a smaller scale
compared to their AR counterparts and lack fair comparison on language modeling
benchmarks. Additionally, training diffusion models from scratch at scale
remains challenging. Given the prevalence of open-source AR language models, we
propose adapting these models to build text diffusion models. We demonstrate
connections between AR and diffusion modeling objectives and introduce a simple
continual pre-training approach for training diffusion models. Through
systematic evaluation on language modeling, reasoning, and commonsense
benchmarks, we show that we can convert AR models ranging from 127M to 7B
parameters (GPT2 and LLaMA) into diffusion models DiffuGPT and DiffuLLaMA,
using less than 200B tokens for training. Our experimental results reveal that
these models outperform earlier DLMs and are competitive with their AR
counterparts. We release a suite of DLMs (with 127M, 355M, and 7B parameters)
capable of generating fluent text, performing in-context learning, filling in
the middle without prompt re-ordering, and following instructions
https://github.com/HKUNLP/DiffuLLaMA.Summary
AI-Generated Summary