MiniMax-01: Skalierung von Grundlagenmodellen mit Blitz-Aufmerksamkeit
MiniMax-01: Scaling Foundation Models with Lightning Attention
January 14, 2025
Autoren: MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu
cs.AI
Zusammenfassung
Wir stellen die MiniMax-01-Serie vor, bestehend aus MiniMax-Text-01 und MiniMax-VL-01, die mit Spitzenmodellen vergleichbar sind und gleichzeitig über überlegene Fähigkeiten bei der Verarbeitung längerer Kontexte verfügen. Der Kern liegt in der Blitz-Aufmerksamkeit und ihrer effizienten Skalierung. Um die Rechenkapazität zu maximieren, integrieren wir sie mit dem Mixture of Experts (MoE), um ein Modell mit 32 Experten und insgesamt 456 Milliarden Parametern zu schaffen, von denen 45,9 Milliarden für jedes Token aktiviert sind. Wir entwickeln eine optimierte parallele Strategie und hoch effiziente Berechnungs-Kommunikations-Überlappungstechniken für MoE und Blitz-Aufmerksamkeit. Dieser Ansatz ermöglicht es uns, effizientes Training und Inferenz auf Modellen mit Hunderten von Milliarden Parametern über Kontexte mit Millionen von Tokens durchzuführen. Das Kontextfenster von MiniMax-Text-01 kann während des Trainings bis zu 1 Million Tokens erreichen und sich während der Inferenz auf 4 Millionen Tokens zu einem erschwinglichen Preis extrapolieren. Unser Vision-Sprachmodell, MiniMax-VL-01, wird durch kontinuierliches Training mit 512 Milliarden Vision-Sprach-Tokens aufgebaut. Experimente sowohl auf Standard- als auch auf firmeninternen Benchmarks zeigen, dass unsere Modelle die Leistung von Spitzenmodellen wie GPT-4o und Claude-3.5-Sonnet erreichen, während sie ein 20-32 Mal längeres Kontextfenster bieten. Wir veröffentlichen MiniMax-01 öffentlich unter https://github.com/MiniMax-AI.
English
We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01,
which are comparable to top-tier models while offering superior capabilities in
processing longer contexts. The core lies in lightning attention and its
efficient scaling. To maximize computational capacity, we integrate it with
Mixture of Experts (MoE), creating a model with 32 experts and 456 billion
total parameters, of which 45.9 billion are activated for each token. We
develop an optimized parallel strategy and highly efficient
computation-communication overlap techniques for MoE and lightning attention.
This approach enables us to conduct efficient training and inference on models
with hundreds of billions of parameters across contexts spanning millions of
tokens. The context window of MiniMax-Text-01 can reach up to 1 million tokens
during training and extrapolate to 4 million tokens during inference at an
affordable cost. Our vision-language model, MiniMax-VL-01 is built through
continued training with 512 billion vision-language tokens. Experiments on both
standard and in-house benchmarks show that our models match the performance of
state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32
times longer context window. We publicly release MiniMax-01 at
https://github.com/MiniMax-AI.Summary
AI-Generated Summary