AERO: Softmax-Alleen LLM's voor Efficiënte Private Inferentie

AERO: Softmax-Only LLMs for Efficient Private Inference

October 16, 2024
Auteurs: Nandan Kumar Jha, Brandon Reagen
cs.AI

Samenvatting

De alomtegenwoordigheid van eigen taalmodellen heeft privacyzorgen doen rijzen over gevoelige gegevens van gebruikers, waarbij de noodzaak van privé-inferentie (PI) wordt benadrukt, waarbij inferentie rechtstreeks op versleutelde invoergegevens wordt uitgevoerd. Huidige PI-methoden ondervinden echter aanzienlijk hogere communicatie- en latentie-overheads, voornamelijk als gevolg van niet-lineaire bewerkingen. In dit artikel presenteren we een uitgebreide analyse om de rol van niet-lineariteiten in op transformer gebaseerde taalmodellen met alleen decoder te begrijpen. We introduceren AERO, een vierstappen architectonisch optimalisatiekader dat de bestaande LLM-architectuur verfijnt voor efficiënte PI door systematisch niet-lineariteiten zoals LayerNorm en GELU te verwijderen en FLOP-tellingen te verminderen. Voor het eerst stellen we een architectuur voor met alleen Softmax met aanzienlijk minder FLOPs die is afgestemd op efficiënte PI. Bovendien bedenken we een nieuwe entropieregularisatietechniek om de prestaties van modellen met alleen Softmax te verbeteren. AERO behaalt tot 4,23 keer communicatie- en 1,94 keer latentievermindering. We valideren de effectiviteit van AERO door het te benchmarken tegen de state-of-the-art.
English
The pervasiveness of proprietary language models has raised privacy concerns for users' sensitive data, emphasizing the need for private inference (PI), where inference is performed directly on encrypted inputs. However, current PI methods face prohibitively higher communication and latency overheads, primarily due to nonlinear operations. In this paper, we present a comprehensive analysis to understand the role of nonlinearities in transformer-based decoder-only language models. We introduce AERO, a four-step architectural optimization framework that refines the existing LLM architecture for efficient PI by systematically removing nonlinearities such as LayerNorm and GELU and reducing FLOPs counts. For the first time, we propose a Softmax-only architecture with significantly fewer FLOPs tailored for efficient PI. Furthermore, we devise a novel entropy regularization technique to improve the performance of Softmax-only models. AERO achieves up to 4.23times communication and 1.94times latency reduction. We validate the effectiveness of AERO by benchmarking it against the state-of-the-art.

Summary

AI-Generated Summary

PDF42November 16, 2024