시그마: 효율적인 언어 모델을 위한 쿼리, 키 및 값의 차별적인 재척도화
Sigma: Differential Rescaling of Query, Key and Value for Efficient Language Models
January 23, 2025
저자: Zhenghao Lin, Zihao Tang, Xiao Liu, Yeyun Gong, Yi Cheng, Qi Chen, Hang Li, Ying Xin, Ziyue Yang, Kailai Yang, Yu Yan, Xiao Liang, Shuai Lu, Yiming Huang, Zheheng Luo, Lei Qu, Xuan Feng, Yaoxiang Wang, Yuqing Xia, Feiyang Chen, Yuting Jiang, Yasen Hu, Hao Ni, Binyang Li, Guoshuai Zhao, Jui-Hao Chiang, Zhongxin Guo, Chen Lin, Kun Kuang, Wenjie Li, Yelong Shen, Jian Jiao, Peng Cheng, Mao Yang
cs.AI
초록
우리는 Sigma를 소개합니다. Sigma는 체계 도메인에 특화된 효율적인 대형 언어 모델로, 새로운 구조인 DiffQKV 어텐션을 포함하고 있으며, 저희가 세심하게 수집한 체계 도메인 데이터로 사전 훈련되었습니다. DiffQKV 어텐션은 모델 성능과 효율성 지표에 따라 Query(Q), Key(K), Value(V) 구성 요소를 차별적으로 최적화함으로써 Sigma의 추론 효율성을 크게 향상시킵니다. 구체적으로, 저희는 (1) K 및 V 구성 요소의 압축에 대한 모델의 민감도의 다양성을 보여주는 실험을 수행하여 차별적으로 압축된 KV의 개발을 이끌었으며, (2) Q 헤드 차원을 확장하는 증강된 Q를 제안하여 모델의 표현 능력을 향상시키고 추론 속도에 미미한 영향을 미칩니다. 엄격한 이론적 및 경험적 분석 결과, DiffQKV 어텐션은 효율성을 크게 향상시켜, 장문 맥락 시나리오에서 기존의 그룹화된 쿼리 어텐션(GQA)에 비해 추론 속도에서 최대 33.36%의 개선을 달성합니다. 우리는 다양한 소스로부터 6조 토큰을 Sigma에 사전 훈련시켰는데, 이는 저희가 주의 깊게 수집한 195억 개의 체계 도메인 데이터와 합성 및 재작성된 1조 토큰을 포함합니다. 일반 도메인에서 Sigma는 다른 최신 모델과 비교 가능한 성능을 달성합니다. 체계 도메인에서는 Sigma가 모든 작업에서 높은 성능을 보이는 첫 번째 포괄적인 벤치마크 AIMicius를 소개했는데, 이때 Sigma는 GPT-4를 큰 폭으로 앞선 52.5%의 절대적인 개선을 보여줍니다.
English
We introduce Sigma, an efficient large language model specialized for the
system domain, empowered by a novel architecture including DiffQKV attention,
and pre-trained on our meticulously collected system domain data. DiffQKV
attention significantly enhances the inference efficiency of Sigma by
optimizing the Query (Q), Key (K), and Value (V) components in the attention
mechanism differentially, based on their varying impacts on the model
performance and efficiency indicators. Specifically, we (1) conduct extensive
experiments that demonstrate the model's varying sensitivity to the compression
of K and V components, leading to the development of differentially compressed
KV, and (2) propose augmented Q to expand the Q head dimension, which enhances
the model's representation capacity with minimal impacts on the inference
speed. Rigorous theoretical and empirical analyses reveal that DiffQKV
attention significantly enhances efficiency, achieving up to a 33.36%
improvement in inference speed over the conventional grouped-query attention
(GQA) in long-context scenarios. We pre-train Sigma on 6T tokens from various
sources, including 19.5B system domain data that we carefully collect and 1T
tokens of synthesized and rewritten data. In general domains, Sigma achieves
comparable performance to other state-of-arts models. In the system domain, we
introduce the first comprehensive benchmark AIMicius, where Sigma demonstrates
remarkable performance across all tasks, significantly outperforming GPT-4 with
an absolute improvement up to 52.5%.Summary
AI-Generated Summary