FFN-Fusion: Neubewertung der sequenziellen Berechnung in großen Sprachmodellen

Zusammenfassung

Wir stellen FFN Fusion vor, eine Architektur-Optimierungstechnik, die die sequenzielle Berechnung in großen Sprachmodellen reduziert, indem natürliche Möglichkeiten für Parallelisierung identifiziert und genutzt werden. Unsere zentrale Erkenntnis ist, dass Sequenzen von Feed-Forward-Netzwerk-Schichten (FFN), insbesondere solche, die nach der Entfernung spezifischer Aufmerksamkeitsschichten übrig bleiben, oft mit minimalen Genauigkeitseinbußen parallelisiert werden können. Wir entwickeln eine methodische Vorgehensweise, um solche Sequenzen zu identifizieren und zu fusionieren, wodurch sie in parallele Operationen umgewandelt werden, die die Inferenzlatenz signifikant verringern, während das Modellverhalten erhalten bleibt. Durch die Anwendung dieser Techniken auf Llama-3.1-405B-Instruct entsteht Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base), ein effizientes und bald öffentlich verfügbares Modell, das eine 1,71-fache Beschleunigung der Inferenzlatenz und 35-fach geringere Kosten pro Token erreicht, bei gleichbleibend starker Leistung in Benchmarks. Umfangreiche Experimente mit Modellen von 49B bis 253B Parametern zeigen, dass FFN Fusion mit zunehmender Skalierung immer effektiver wird und bestehende Optimierungstechniken wie Quantisierung und Pruning ergänzen kann. Besonders interessant ist, dass sogar vollständige Transformer-Blöcke, die sowohl Aufmerksamkeits- als auch FFN-Schichten enthalten, manchmal parallelisiert werden können, was neue Richtungen für das Design neuronaler Architekturen nahelegt.

English

We introduce FFN Fusion, an architectural optimization technique that reduces sequential computation in large language models by identifying and exploiting natural opportunities for parallelization. Our key insight is that sequences of Feed-Forward Network (FFN) layers, particularly those remaining after the removal of specific attention layers, can often be parallelized with minimal accuracy impact. We develop a principled methodology for identifying and fusing such sequences, transforming them into parallel operations that significantly reduce inference latency while preserving model behavior. Applying these techniques to Llama-3.1-405B-Instruct, we create Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base), an efficient and soon-to-be publicly available model that achieves a 1.71X speedup in inference latency and 35X lower per-token cost while maintaining strong performance across benchmarks. Through extensive experiments on models from 49B to 253B parameters, we demonstrate that FFN Fusion becomes increasingly effective at larger scales and can complement existing optimization techniques like quantization and pruning. Most intriguingly, we find that even full transformer blocks containing both attention and FFN layers can sometimes be parallelized, suggesting new directions for neural architecture design.

FFN-Fusion: Neubewertung der sequenziellen Berechnung in großen Sprachmodellen

FFN Fusion: Rethinking Sequential Computation in Large Language Models

Zusammenfassung

Summary

Support