Un metodo parallelo dinamico per l'ottimizzazione delle prestazioni su CPU ibride

A dynamic parallel method for performance optimization on hybrid CPUs

November 29, 2024
Autori: Luo Yu, Liu Yucheng, Shen Haihao
cs.AI

Abstract

Il concetto di AIPC sta guadagnando popolarità e sempre più CPU ibride eseguiranno modelli di intelligenza artificiale sui dispositivi client. Tuttavia, il framework attuale di inferenza AI trascura la disparità delle capacità hardware delle CPU ibride, portando a prestazioni di inferenza basse. Per affrontare questo problema, abbiamo introdotto un metodo parallelo dinamico per le CPU ibride, che aumenta significativamente le prestazioni di inferenza LLM bilanciando il carico di lavoro per ciascun core di una CPU ibrida prima dell'avvio del lavoro parallelo. Questo metodo ha permesso a Neural Speed di raggiungere più del 90% (in media) della larghezza di banda di memoria su due CPU ibride Intel.
English
The AIPC concept is gaining popularity, and more and more hybrid CPUs will be running AI models on client devices. However, the current AI inference framework overlooks the imbalanced hardware capability of hybrid CPUs, leading to low inference performance. To address this issue, we have introduced a dynamic parallel method for hybrid CPUs, which significantly increases LLM inference performance by balancing the workload for each core of a hybrid CPU before the parallel work starts. This method has enabled Neural Speed to achieve more than 90% (on average) of memory bandwidth on two hybrid Intel CPUs.

Summary

AI-Generated Summary

PDF52December 4, 2024