Skalierung von Diffusions-Sprachmodellen durch Anpassung von autoregressiven Modellen

Scaling Diffusion Language Models via Adaptation from Autoregressive Models

October 23, 2024
Autoren: Shansan Gong, Shivam Agarwal, Yizhe Zhang, Jiacheng Ye, Lin Zheng, Mukai Li, Chenxin An, Peilin Zhao, Wei Bi, Jiawei Han, Hao Peng, Lingpeng Kong
cs.AI

Zusammenfassung

Diffusions-Sprachmodelle (DLMs) haben sich als vielversprechendes neues Paradigma für die generative Modellierung von Texten etabliert, das potenziell die Einschränkungen von autoregressiven (AR) Modellen adressieren kann. Allerdings wurden aktuelle DLMs im Vergleich zu ihren AR-Gegenstücken auf kleinerer Skala untersucht und es fehlt ein fairer Vergleich auf Sprachmodellierungs-Benchmarks. Darüber hinaus bleibt das Training von Diffusionsmodellen von Grund auf in großem Maßstab eine Herausforderung. Angesichts der Verbreitung von Open-Source AR-Sprachmodellen schlagen wir vor, diese Modelle anzupassen, um Textdiffusionsmodelle zu erstellen. Wir zeigen Verbindungen zwischen AR- und Diffusionsmodellierungszielen auf und führen einen einfachen kontinuierlichen Vortrainierungsansatz für das Training von Diffusionsmodellen ein. Durch systematische Evaluation auf Sprachmodellierungs-, Schlussfolgerungs- und gesunden Menschenverstand-Benchmarks zeigen wir, dass wir AR-Modelle mit 127M bis 7B Parametern (GPT2 und LLaMA) in Diffusionsmodelle DiffuGPT und DiffuLLaMA umwandeln können, wobei weniger als 200B Token für das Training verwendet werden. Unsere experimentellen Ergebnisse zeigen, dass diese Modelle frühere DLMs übertreffen und mit ihren AR-Gegenstücken konkurrenzfähig sind. Wir veröffentlichen eine Reihe von DLMs (mit 127M, 355M und 7B Parametern), die in der Lage sind, fließenden Text zu generieren, kontextbezogenes Lernen durchzuführen, Lücken zu füllen, ohne die Anweisungen neu anordnen zu müssen, und Anweisungen zu befolgen.
English
Diffusion Language Models (DLMs) have emerged as a promising new paradigm for text generative modeling, potentially addressing limitations of autoregressive (AR) models. However, current DLMs have been studied at a smaller scale compared to their AR counterparts and lack fair comparison on language modeling benchmarks. Additionally, training diffusion models from scratch at scale remains challenging. Given the prevalence of open-source AR language models, we propose adapting these models to build text diffusion models. We demonstrate connections between AR and diffusion modeling objectives and introduce a simple continual pre-training approach for training diffusion models. Through systematic evaluation on language modeling, reasoning, and commonsense benchmarks, we show that we can convert AR models ranging from 127M to 7B parameters (GPT2 and LLaMA) into diffusion models DiffuGPT and DiffuLLaMA, using less than 200B tokens for training. Our experimental results reveal that these models outperform earlier DLMs and are competitive with their AR counterparts. We release a suite of DLMs (with 127M, 355M, and 7B parameters) capable of generating fluent text, performing in-context learning, filling in the middle without prompt re-ordering, and following instructions https://github.com/HKUNLP/DiffuLLaMA.

Summary

AI-Generated Summary

PDF152November 16, 2024