ChatPaper.aiChatPaper

MiniMax-01: 번개 주의를 사용하여 Foundation 모델의 스케일링

MiniMax-01: Scaling Foundation Models with Lightning Attention

January 14, 2025
저자: MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu
cs.AI

초록

우리는 MiniMax-01 시리즈를 소개합니다. MiniMax-Text-01과 MiniMax-VL-01을 포함하여, 이 시리즈는 최고 수준의 모델들과 비교 가능하면서 더 긴 맥락을 처리하는 우수한 능력을 제공합니다. 핵심은 빠른 어텐션과 효율적인 스케일링에 있습니다. 계산 능력을 극대화하기 위해, 우리는 Mixture of Experts (MoE)와 통합하여 32명의 전문가와 4560억 개의 총 매개변수를 가진 모델을 만들었습니다. 이 중 각 토큰에 대해 459억 개가 활성화됩니다. MoE와 빠른 어텐션에 대해 최적화된 병렬 전략과 매우 효율적인 계산-통신 중첩 기술을 개발했습니다. 이 접근 방식을 통해 수백억 개의 매개변수를 가진 모델에 대해 수백만 개의 토큰을 포함하는 다양한 맥락에서 효율적인 훈련과 추론을 수행할 수 있습니다. MiniMax-Text-01의 맥락 창은 훈련 중에 최대 100만 개의 토큰에 이를 수 있으며, 추론 중에는 400만 개의 토큰까지 저렴한 비용으로 확장될 수 있습니다. 우리의 비전-언어 모델 MiniMax-VL-01은 5120억 개의 비전-언어 토큰을 계속해서 훈련하여 구축되었습니다. 표준 및 내부 벤치마크에서의 실험 결과는 우리의 모델이 GPT-4o와 Claude-3.5-Sonnet과 같은 최첨단 모델의 성능을 맞먹으면서 20-32배 더 긴 맥락 창을 제공함을 보여줍니다. 우리는 MiniMax-01을 https://github.com/MiniMax-AI에서 공개합니다.
English
We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01, which are comparable to top-tier models while offering superior capabilities in processing longer contexts. The core lies in lightning attention and its efficient scaling. To maximize computational capacity, we integrate it with Mixture of Experts (MoE), creating a model with 32 experts and 456 billion total parameters, of which 45.9 billion are activated for each token. We develop an optimized parallel strategy and highly efficient computation-communication overlap techniques for MoE and lightning attention. This approach enables us to conduct efficient training and inference on models with hundreds of billions of parameters across contexts spanning millions of tokens. The context window of MiniMax-Text-01 can reach up to 1 million tokens during training and extrapolate to 4 million tokens during inference at an affordable cost. Our vision-language model, MiniMax-VL-01 is built through continued training with 512 billion vision-language tokens. Experiments on both standard and in-house benchmarks show that our models match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32 times longer context window. We publicly release MiniMax-01 at https://github.com/MiniMax-AI.

Summary

AI-Generated Summary

PDF2736January 15, 2025