FFN-Fusion: Neubewertung der sequenziellen Berechnung in großen Sprachmodellen
FFN Fusion: Rethinking Sequential Computation in Large Language Models
March 24, 2025
Autoren: Akhiad Bercovich, Mohammad Dabbah, Omri Puny, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Ehud Karpas, Itay Levy, Zach Moshe, Najeeb Nabwani, Tomer Ronen, Itamar Schen, Elad Segal, Ido Shahaf, Oren Tropp, Ran Zilberstein, Ran El-Yaniv
cs.AI
Zusammenfassung
Wir stellen FFN Fusion vor, eine Architektur-Optimierungstechnik, die die sequenzielle Berechnung in großen Sprachmodellen reduziert, indem natürliche Möglichkeiten für Parallelisierung identifiziert und genutzt werden. Unsere zentrale Erkenntnis ist, dass Sequenzen von Feed-Forward-Netzwerk-Schichten (FFN), insbesondere solche, die nach der Entfernung spezifischer Aufmerksamkeitsschichten übrig bleiben, oft mit minimalen Genauigkeitseinbußen parallelisiert werden können. Wir entwickeln eine methodische Vorgehensweise, um solche Sequenzen zu identifizieren und zu fusionieren, wodurch sie in parallele Operationen umgewandelt werden, die die Inferenzlatenz signifikant verringern, während das Modellverhalten erhalten bleibt. Durch die Anwendung dieser Techniken auf Llama-3.1-405B-Instruct entsteht Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base), ein effizientes und bald öffentlich verfügbares Modell, das eine 1,71-fache Beschleunigung der Inferenzlatenz und 35-fach geringere Kosten pro Token erreicht, bei gleichbleibend starker Leistung in Benchmarks. Umfangreiche Experimente mit Modellen von 49B bis 253B Parametern zeigen, dass FFN Fusion mit zunehmender Skalierung immer effektiver wird und bestehende Optimierungstechniken wie Quantisierung und Pruning ergänzen kann. Besonders interessant ist, dass sogar vollständige Transformer-Blöcke, die sowohl Aufmerksamkeits- als auch FFN-Schichten enthalten, manchmal parallelisiert werden können, was neue Richtungen für das Design neuronaler Architekturen nahelegt.
English
We introduce FFN Fusion, an architectural optimization technique that reduces
sequential computation in large language models by identifying and exploiting
natural opportunities for parallelization. Our key insight is that sequences of
Feed-Forward Network (FFN) layers, particularly those remaining after the
removal of specific attention layers, can often be parallelized with minimal
accuracy impact. We develop a principled methodology for identifying and fusing
such sequences, transforming them into parallel operations that significantly
reduce inference latency while preserving model behavior. Applying these
techniques to Llama-3.1-405B-Instruct, we create Llama-Nemotron-Ultra-253B-Base
(Ultra-253B-Base), an efficient and soon-to-be publicly available model that
achieves a 1.71X speedup in inference latency and 35X lower per-token cost
while maintaining strong performance across benchmarks. Through extensive
experiments on models from 49B to 253B parameters, we demonstrate that FFN
Fusion becomes increasingly effective at larger scales and can complement
existing optimization techniques like quantization and pruning. Most
intriguingly, we find that even full transformer blocks containing both
attention and FFN layers can sometimes be parallelized, suggesting new
directions for neural architecture design.Summary
AI-Generated Summary