Terugkeer van de Coder: Het maximaliseren van de parameter-efficiëntie voor SLM's.
Return of the Encoder: Maximizing Parameter Efficiency for SLMs
January 27, 2025
Auteurs: Mohamed Elfeki, Rui Liu, Chad Voegele
cs.AI
Samenvatting
De dominantie van grote taalmodellen met alleen decoders heeft de encoder-decoderarchitecturen overschaduwd, ondanks hun fundamentele efficiëntievoordelen bij sequentieverwerking. Voor kleine taalmodellen (SLM's) - die 1 miljard parameters of minder hebben - onthult onze systematische analyse over GPU, CPU en NPU-platforms dat encoder-decoderarchitecturen 47% lagere latentie van het eerste token en 4,7x hogere doorvoer bereiken in vergelijking met alleen decodermodellen op edge-apparaten. Deze winsten kunnen worden toegeschreven aan de eenmalige verwerking van invoer en efficiënte scheiding van begrip en generatiefasen.
We introduceren een nieuw kennisdistillatiekader dat encoder-decodermodellen in staat stelt om capaciteiten van grote schaalbare alleen-decoderdocenten te benutten, terwijl ze hun architecturale voordelen behouden, met een verbetering van maximaal 6 gemiddelde prestatiepunten over diverse taken, met aanzienlijke winsten bij asymmetrische sequentietaken waar invoer- en uitvoerdistributies kunnen profiteren van verschillende verwerkingsbenaderingen.
In combinatie met moderne ontwikkelingen zoals RoBu (Rotary Positional Embeddings) en Vision-encoders, toont ons systematisch onderzoek aan dat encoder-decoderarchitecturen een praktischer pad bieden voor het implementeren van capabele taalmodellen in omgevingen met beperkte middelen. Onze bevindingen dagen de heersende trend van alleen decoder-schaling uit, waarbij wordt aangetoond dat architecturale keuzes steeds crucialer worden naarmate de parameterbudgetten afnemen, met name voor on-device en edge-implementaties waar computationele efficiëntie van essentieel belang is.
English
The dominance of large decoder-only language models has overshadowed
encoder-decoder architectures, despite their fundamental efficiency advantages
in sequence processing. For small language models (SLMs) - those with 1 billion
parameters or fewer - our systematic analysis across GPU, CPU, and NPU
platforms reveals that encoder-decoder architectures achieve 47% lower
first-token latency and 4.7x higher throughput compared to decoder-only models
on edge devices. These gains may be attributed to encoder-decoder's one-time
input processing and efficient separation of understanding and generation
phases.
We introduce a novel knowledge distillation framework that enables
encoder-decoder models to leverage capabilities from large scalable
decoder-only teachers while preserving their architectural advantages,
achieving up to 6 average performance points improvement across diverse tasks,
with significant gains in asymmetric sequence tasks where input and output
distributions can benefit from different processing approaches.
When combined with modern advances like Rotary Positional Embeddings (RoPE)
and Vision encoders, our systematic investigation demonstrates that
encoder-decoder architectures provide a more practical path toward deploying
capable language models in resource-constrained environments. Our findings
challenge the prevailing trend toward decoder-only scaling, showing that
architectural choices become increasingly crucial as parameter budgets
decrease, particularly for on-device and edge deployments where computational
efficiency is paramount.Summary
AI-Generated Summary