대규모 언어 확산 모델(Large Language Diffusion Models)
Large Language Diffusion Models
February 14, 2025
저자: Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
cs.AI
초록
자기회귀 모델(ARMs)은 대규모 언어 모델(LLMs)의 초석으로 널리 인식되어 왔습니다. 우리는 이 개념에 도전하여, 사전 학습과 지도 미세 조정(SFT) 패러다임 하에서 처음부터 학습된 확산 모델인 LLaDA를 소개합니다. LLaDA는 순방향 데이터 마스킹 프로세스와 역방향 프로세스를 통해 분포를 모델링하며, 마스킹된 토큰을 예측하기 위해 기본 Transformer를 매개변수로 사용합니다. 가능성 경계를 최적화함으로써, LLaDA는 확률적 추론을 위한 원칙적인 생성적 접근 방식을 제공합니다. 다양한 벤치마크에서 LLaDA는 강력한 확장성을 보여주며, 우리가 자체 구축한 ARM 기준선을 능가합니다. 특히, LLaDA 8B는 LLaMA3 8B와 같은 강력한 LLM들과 맥락 내 학습에서 경쟁력을 보이며, SFT 이후에는 다중 턴 대화와 같은 사례 연구에서 인상적인 지시 수행 능력을 보여줍니다. 더욱이, LLaDA는 역전 저주 문제를 해결하며, 역전 시 완성 작업에서 GPT-4o를 능가합니다. 우리의 연구 결과는 확산 모델이 ARMs에 대한 실용적이고 유망한 대안임을 입증하며, 위에서 논의된 주요 LLM 능력이 본질적으로 ARMs에만 연결되어 있다는 가정에 도전합니다.
English
Autoregressive models (ARMs) are widely regarded as the cornerstone of large
language models (LLMs). We challenge this notion by introducing LLaDA, a
diffusion model trained from scratch under the pre-training and supervised
fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data
masking process and a reverse process, parameterized by a vanilla Transformer
to predict masked tokens. By optimizing a likelihood bound, it provides a
principled generative approach for probabilistic inference. Across extensive
benchmarks, LLaDA demonstrates strong scalability, outperforming our
self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong
LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive
instruction-following abilities in case studies such as multi-turn dialogue.
Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal
poem completion task. Our findings establish diffusion models as a viable and
promising alternative to ARMs, challenging the assumption that key LLM
capabilities discussed above are inherently tied to ARMs.Summary
AI-Generated Summary