Attenzione guidata dall'entropia per LLM privati

Entropy-Guided Attention for Private LLMs

January 7, 2025
Autori: Nandan Kumar Jha, Brandon Reagen
cs.AI

Abstract

La pervasività dei modelli linguistici proprietari ha sollevato critiche preoccupazioni sulla privacy, rendendo necessari progressi nell'inferenza privata (PI), dove i calcoli vengono eseguiti direttamente su dati crittografati senza rivelare informazioni sensibili degli utenti. Sebbene la PI offra una soluzione promettente, la sua implementazione pratica è ostacolata da notevoli sovraccarichi di comunicazione e latenza, derivanti principalmente da operazioni non lineari. Per affrontare questo problema, introduciamo un quadro informativo per caratterizzare il ruolo delle non linearità nei modelli linguistici basati solo sul decoder, gettando le basi per ottimizzare architetture trasformative adattate alle esigenze della PI. Sfruttando l'entropia di Shannon come misura quantitativa, scopriamo il duplice significato delle non linearità precedentemente inesplorato: oltre a garantire la stabilità dell'addestramento, sono cruciali per mantenere la diversità delle attenzioni. In particolare, scopriamo che la loro rimozione attiva due modalità critiche di fallimento: il "collasso dell'entropia" nei livelli più profondi che destabilizza l'addestramento e il "sovraccarico entropico" nei livelli precedenti che porta a un sottoutilizzo della capacità rappresentativa dell'Attenzione Multi-Head (MHA). Proponiamo un meccanismo di attenzione guidato dall'entropia abbinato a una nuova tecnica di regolarizzazione dell'entropia per mitigare il sovraccarico entropico. Inoltre, esploriamo alternative amichevoli per la PI alla normalizzazione dei livelli per prevenire il collasso dell'entropia e stabilizzare l'addestramento di LLM con minori non linearità. Il nostro studio colma il divario tra teoria dell'informazione e progettazione architettonica, stabilendo la dinamica dell'entropia come guida fondamentale per lo sviluppo di architetture PI efficienti. Il codice e l'implementazione sono disponibili su https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.
English
The pervasiveness of proprietary language models has raised critical privacy concerns, necessitating advancements in private inference (PI), where computations are performed directly on encrypted data without revealing users' sensitive information. While PI offers a promising solution, its practical deployment is hindered by substantial communication and latency overheads, primarily stemming from nonlinear operations. To address this, we introduce an information-theoretic framework to characterize the role of nonlinearities in decoder-only language models, laying a principled foundation for optimizing transformer-architectures tailored to the demands of PI. By leveraging Shannon's entropy as a quantitative measure, we uncover the previously unexplored dual significance of nonlinearities: beyond ensuring training stability, they are crucial for maintaining attention head diversity. Specifically, we find that their removal triggers two critical failure modes: {\em entropy collapse} in deeper layers that destabilizes training, and {\em entropic overload} in earlier layers that leads to under-utilization of Multi-Head Attention's (MHA) representational capacity. We propose an entropy-guided attention mechanism paired with a novel entropy regularization technique to mitigate entropic overload. Additionally, we explore PI-friendly alternatives to layer normalization for preventing entropy collapse and stabilizing the training of LLMs with reduced-nonlinearities. Our study bridges the gap between information theory and architectural design, establishing entropy dynamics as a principled guide for developing efficient PI architectures. The code and implementation are available at https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.

Summary

AI-Generated Summary

PDF138January 10, 2025