AERO: Softmax-Alleen LLM's voor Efficiënte Private Inferentie
AERO: Softmax-Only LLMs for Efficient Private Inference
October 16, 2024
Auteurs: Nandan Kumar Jha, Brandon Reagen
cs.AI
Samenvatting
De alomtegenwoordigheid van eigen taalmodellen heeft privacyzorgen doen rijzen over gevoelige gegevens van gebruikers, waarbij de noodzaak van privé-inferentie (PI) wordt benadrukt, waarbij inferentie rechtstreeks op versleutelde invoergegevens wordt uitgevoerd. Huidige PI-methoden ondervinden echter aanzienlijk hogere communicatie- en latentie-overheads, voornamelijk als gevolg van niet-lineaire bewerkingen. In dit artikel presenteren we een uitgebreide analyse om de rol van niet-lineariteiten in op transformer gebaseerde taalmodellen met alleen decoder te begrijpen. We introduceren AERO, een vierstappen architectonisch optimalisatiekader dat de bestaande LLM-architectuur verfijnt voor efficiënte PI door systematisch niet-lineariteiten zoals LayerNorm en GELU te verwijderen en FLOP-tellingen te verminderen. Voor het eerst stellen we een architectuur voor met alleen Softmax met aanzienlijk minder FLOPs die is afgestemd op efficiënte PI. Bovendien bedenken we een nieuwe entropieregularisatietechniek om de prestaties van modellen met alleen Softmax te verbeteren. AERO behaalt tot 4,23 keer communicatie- en 1,94 keer latentievermindering. We valideren de effectiviteit van AERO door het te benchmarken tegen de state-of-the-art.
English
The pervasiveness of proprietary language models has raised privacy concerns
for users' sensitive data, emphasizing the need for private inference (PI),
where inference is performed directly on encrypted inputs. However, current PI
methods face prohibitively higher communication and latency overheads,
primarily due to nonlinear operations. In this paper, we present a
comprehensive analysis to understand the role of nonlinearities in
transformer-based decoder-only language models. We introduce AERO, a four-step
architectural optimization framework that refines the existing LLM architecture
for efficient PI by systematically removing nonlinearities such as LayerNorm
and GELU and reducing FLOPs counts. For the first time, we propose a
Softmax-only architecture with significantly fewer FLOPs tailored for efficient
PI. Furthermore, we devise a novel entropy regularization technique to improve
the performance of Softmax-only models. AERO achieves up to 4.23times
communication and 1.94times latency reduction. We validate the effectiveness
of AERO by benchmarking it against the state-of-the-art.Summary
AI-Generated Summary