Hunyuan-Large: Een open-source MoE-model met 52 miljard geactiveerde parameters door Tencent.

Samenvatting

In dit artikel introduceren we Hunyuan-Large, momenteel het grootste open-source Transformer-gebaseerde model van een mengeling van experts, met in totaal 389 miljard parameters en 52 miljard activatieparameters, in staat om tot 256K tokens te verwerken. We voeren een grondige evaluatie uit van de superieure prestaties van Hunyuan-Large over verschillende benchmarks, waaronder taalbegrip en -generatie, logisch redeneren, wiskundige probleemoplossing, codering, lange context en geaggregeerde taken, waar het LLama3.1-70B overtreft en vergelijkbare prestaties vertoont in vergelijking met het aanzienlijk grotere LLama3.1-405B-model. Belangrijke kenmerken van Hunyuan-Large zijn synthetische gegevens op grote schaal die vele malen groter zijn dan in eerdere literatuur, een gemengde expertrouteringsstrategie, een techniek voor compressie van key-value cache en een expertspecifieke leersnelheidsstrategie. Daarnaast onderzoeken we ook de schaalwetten en leerschema's van modellen van een mengeling van experts, waarbij we waardevolle inzichten en richtlijnen bieden voor toekomstige modelontwikkeling en -optimalisatie. De code en checkpoints van Hunyuan-Large zijn vrijgegeven om toekomstige innovaties en toepassingen te vergemakkelijken. Codes: https://github.com/Tencent/Hunyuan-Large Modellen: https://huggingface.co/tencent/Tencent-Hunyuan-Large

English

In this paper, we introduce Hunyuan-Large, which is currently the largest open-source Transformer-based mixture of experts model, with a total of 389 billion parameters and 52 billion activation parameters, capable of handling up to 256K tokens. We conduct a thorough evaluation of Hunyuan-Large's superior performance across various benchmarks including language understanding and generation, logical reasoning, mathematical problem-solving, coding, long-context, and aggregated tasks, where it outperforms LLama3.1-70B and exhibits comparable performance when compared to the significantly larger LLama3.1-405B model. Key practice of Hunyuan-Large include large-scale synthetic data that is orders larger than in previous literature, a mixed expert routing strategy, a key-value cache compression technique, and an expert-specific learning rate strategy. Additionally, we also investigate the scaling laws and learning rate schedule of mixture of experts models, providing valuable insights and guidances for future model development and optimization. The code and checkpoints of Hunyuan-Large are released to facilitate future innovations and applications. Codes: https://github.com/Tencent/Hunyuan-Large Models: https://huggingface.co/tencent/Tencent-Hunyuan-Large

Hunyuan-Large: Een open-source MoE-model met 52 miljard geactiveerde parameters door Tencent.

Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

Samenvatting

Summary

Support