Qwen2.5-1M Technischer Bericht
Qwen2.5-1M Technical Report
January 26, 2025
Autoren: An Yang, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoyan Huang, Jiandong Jiang, Jianhong Tu, Jianwei Zhang, Jingren Zhou, Junyang Lin, Kai Dang, Kexin Yang, Le Yu, Mei Li, Minmin Sun, Qin Zhu, Rui Men, Tao He, Weijia Xu, Wenbiao Yin, Wenyuan Yu, Xiafei Qiu, Xingzhang Ren, Xinlong Yang, Yong Li, Zhiying Xu, Zipeng Zhang
cs.AI
Zusammenfassung
Wir stellen Qwen2.5-1M vor, eine Serie von Modellen, die die Kontextlänge auf 1 Million Tokens erweitern. Im Vergleich zur vorherigen 128K-Version weisen die Qwen2.5-1M-Modelle signifikant verbesserte Fähigkeiten im Umgang mit langem Kontext auf, durch Vor- und Nachtraining mit langem Kontext. Schlüsseltechniken wie die Synthese langer Daten, progressives Vortraining und mehrstufiges überwachtes Feintuning werden eingesetzt, um die Leistung im Umgang mit langem Kontext effektiv zu verbessern und gleichzeitig die Trainingskosten zu reduzieren.
Um den Einsatz von Modellen mit langem Kontext in einem breiteren Nutzerkreis zu fördern, präsentieren wir unser Inferenz-Framework als Open Source. Dieses Framework beinhaltet eine Längenextrapolationsmethode, die die Modellkontextlängen um mindestens das Vierfache oder sogar mehr ohne zusätzliches Training erweitern kann. Zur Reduzierung der Inferenzkosten implementieren wir eine Methode für spärliche Aufmerksamkeit zusammen mit optimierter vorausgefüllter Chunkung für Einsatzszenarien und eine Methode zur Sparsamkeitsverfeinerung zur Verbesserung der Präzision. Darüber hinaus erläutern wir unsere Optimierungen im Inferenz-Engine, einschließlich Kernel-Optimierung, Pipeline-Parallelität und Zeitplanoptimierung, die die Gesamtinferenzleistung signifikant verbessern. Durch die Nutzung unseres Inferenz-Frameworks erreichen die Qwen2.5-1M-Modelle eine bemerkenswerte 3- bis 7-fache Beschleunigung bei der Vorausfüllung in Szenarien mit 1 Million Tokens im Kontext. Dieses Framework bietet eine effiziente und leistungsstarke Lösung für die Entwicklung von Anwendungen, die die Verarbeitung von langem Kontext unter Verwendung von Open-Source-Modellen erfordern.
Die Qwen2.5-1M-Serie umfasst derzeit die Open-Source-Modelle Qwen2.5-7B-Instruct-1M und Qwen2.5-14B-Instruct-1M sowie das API-zugängliche Modell Qwen2.5-Turbo. Evaluierungen zeigen, dass die Qwen2.5-1M-Modelle in langen Kontextaufgaben erheblich verbessert wurden, ohne die Leistung in Szenarien mit kurzem Kontext zu beeinträchtigen. Insbesondere übertrifft das Qwen2.5-14B-Instruct-1M-Modell signifikant das GPT-4o-mini in langen Kontextaufgaben und unterstützt achtmal längere Kontexte.
English
We introduce Qwen2.5-1M, a series of models that extend the context length to
1 million tokens. Compared to the previous 128K version, the Qwen2.5-1M series
have significantly enhanced long-context capabilities through long-context
pre-training and post-training. Key techniques such as long data synthesis,
progressive pre-training, and multi-stage supervised fine-tuning are employed
to effectively enhance long-context performance while reducing training costs.
To promote the use of long-context models among a broader user base, we
present and open-source our inference framework. This framework includes a
length extrapolation method that can expand the model context lengths by at
least four times, or even more, without additional training. To reduce
inference costs, we implement a sparse attention method along with chunked
prefill optimization for deployment scenarios and a sparsity refinement method
to improve precision. Additionally, we detail our optimizations in the
inference engine, including kernel optimization, pipeline parallelism, and
scheduling optimization, which significantly enhance overall inference
performance. By leveraging our inference framework, the Qwen2.5-1M models
achieve a remarkable 3x to 7x prefill speedup in scenarios with 1 million
tokens of context. This framework provides an efficient and powerful solution
for developing applications that require long-context processing using
open-source models.
The Qwen2.5-1M series currently includes the open-source models
Qwen2.5-7B-Instruct-1M and Qwen2.5-14B-Instruct-1M, as well as the API-accessed
model Qwen2.5-Turbo. Evaluations show that Qwen2.5-1M models have been greatly
improved in long-context tasks without compromising performance in
short-context scenarios. Specifically, the Qwen2.5-14B-Instruct-1M model
significantly outperforms GPT-4o-mini in long-context tasks and supports
contexts eight times longer.Summary
AI-Generated Summary