Hunyuan-Large : Un modèle MoE open source avec 52 milliards de paramètres activés par Tencent

Résumé

Dans cet article, nous présentons Hunyuan-Large, actuellement le plus grand modèle open-source à base de Transformer et mélange d'experts, avec un total de 389 milliards de paramètres et 52 milliards de paramètres d'activation, capable de traiter jusqu'à 256 000 jetons. Nous menons une évaluation approfondie des performances supérieures de Hunyuan-Large à travers divers benchmarks, notamment la compréhension et la génération de langage, le raisonnement logique, la résolution de problèmes mathématiques, la programmation, les contextes longs et les tâches agrégées, où il surpasse LLama3.1-70B et affiche des performances comparables à celles du modèle beaucoup plus grand LLama3.1-405B. Les pratiques clés de Hunyuan-Large comprennent des données synthétiques à grande échelle bien plus importantes que celles des études précédentes, une stratégie de routage d'experts mixtes, une technique de compression de cache clé-valeur et une stratégie de taux d'apprentissage spécifique à l'expert. De plus, nous examinons également les lois d'échelle et le calendrier de taux d'apprentissage des modèles à mélange d'experts, fournissant des informations précieuses et des orientations pour le développement et l'optimisation des modèles futurs. Le code et les points de contrôle de Hunyuan-Large sont publiés pour faciliter les futures innovations et applications. Codes : https://github.com/Tencent/Hunyuan-Large Modèles : https://huggingface.co/tencent/Tencent-Hunyuan-Large

English

In this paper, we introduce Hunyuan-Large, which is currently the largest open-source Transformer-based mixture of experts model, with a total of 389 billion parameters and 52 billion activation parameters, capable of handling up to 256K tokens. We conduct a thorough evaluation of Hunyuan-Large's superior performance across various benchmarks including language understanding and generation, logical reasoning, mathematical problem-solving, coding, long-context, and aggregated tasks, where it outperforms LLama3.1-70B and exhibits comparable performance when compared to the significantly larger LLama3.1-405B model. Key practice of Hunyuan-Large include large-scale synthetic data that is orders larger than in previous literature, a mixed expert routing strategy, a key-value cache compression technique, and an expert-specific learning rate strategy. Additionally, we also investigate the scaling laws and learning rate schedule of mixture of experts models, providing valuable insights and guidances for future model development and optimization. The code and checkpoints of Hunyuan-Large are released to facilitate future innovations and applications. Codes: https://github.com/Tencent/Hunyuan-Large Models: https://huggingface.co/tencent/Tencent-Hunyuan-Large

Hunyuan-Large : Un modèle MoE open source avec 52 milliards de paramètres activés par Tencent

Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

Résumé

Summary

Support