Mise à l'échelle des modèles de langage de diffusion via l'adaptation à partir de modèles autorégressifs

Résumé

Les Modèles de Langage par Diffusion (DLMs) ont émergé comme un nouveau paradigme prometteur pour la modélisation générative de texte, potentiellement en réponse aux limitations des modèles autorégressifs (AR). Cependant, les DLMs actuels ont été étudiés à une plus petite échelle par rapport à leurs homologues AR et manquent de comparaisons équitables sur les bancs d'essai de modélisation de langage. De plus, l'entraînement de modèles de diffusion à grande échelle à partir de zéro reste un défi. Étant donné la prévalence des modèles de langage AR en open source, nous proposons d'adapter ces modèles pour construire des modèles de diffusion de texte. Nous démontrons des liens entre les objectifs de modélisation AR et de diffusion et introduisons une approche simple de pré-entraînement continu pour l'entraînement de modèles de diffusion. À travers une évaluation systématique sur des bancs d'essai de modélisation de langage, de raisonnement et de bon sens, nous montrons que nous pouvons convertir des modèles AR allant de 127M à 7B de paramètres (GPT2 et LLaMA) en modèles de diffusion DiffuGPT et DiffuLLaMA, en utilisant moins de 200B de jetons pour l'entraînement. Nos résultats expérimentaux révèlent que ces modèles surpassent les DLMs antérieurs et sont compétitifs avec leurs homologues AR. Nous mettons à disposition une série de DLMs (avec 127M, 355M et 7B de paramètres) capables de générer un texte fluide, d'effectuer un apprentissage en contexte, de remplir le milieu sans réorganisation de la requête, et de suivre les instructions sur https://github.com/HKUNLP/DiffuLLaMA.

English

Diffusion Language Models (DLMs) have emerged as a promising new paradigm for text generative modeling, potentially addressing limitations of autoregressive (AR) models. However, current DLMs have been studied at a smaller scale compared to their AR counterparts and lack fair comparison on language modeling benchmarks. Additionally, training diffusion models from scratch at scale remains challenging. Given the prevalence of open-source AR language models, we propose adapting these models to build text diffusion models. We demonstrate connections between AR and diffusion modeling objectives and introduce a simple continual pre-training approach for training diffusion models. Through systematic evaluation on language modeling, reasoning, and commonsense benchmarks, we show that we can convert AR models ranging from 127M to 7B parameters (GPT2 and LLaMA) into diffusion models DiffuGPT and DiffuLLaMA, using less than 200B tokens for training. Our experimental results reveal that these models outperform earlier DLMs and are competitive with their AR counterparts. We release a suite of DLMs (with 127M, 355M, and 7B parameters) capable of generating fluent text, performing in-context learning, filling in the middle without prompt re-ordering, and following instructions https://github.com/HKUNLP/DiffuLLaMA.

Mise à l'échelle des modèles de langage de diffusion via l'adaptation à partir de modèles autorégressifs

Scaling Diffusion Language Models via Adaptation from Autoregressive Models

Résumé

Summary

Support