Terugkeer van de Coder: Het maximaliseren van de parameter-efficiëntie voor SLM's.

Samenvatting

De dominantie van grote taalmodellen met alleen decoders heeft de encoder-decoderarchitecturen overschaduwd, ondanks hun fundamentele efficiëntievoordelen bij sequentieverwerking. Voor kleine taalmodellen (SLM's) - die 1 miljard parameters of minder hebben - onthult onze systematische analyse over GPU, CPU en NPU-platforms dat encoder-decoderarchitecturen 47% lagere latentie van het eerste token en 4,7x hogere doorvoer bereiken in vergelijking met alleen decodermodellen op edge-apparaten. Deze winsten kunnen worden toegeschreven aan de eenmalige verwerking van invoer en efficiënte scheiding van begrip en generatiefasen. We introduceren een nieuw kennisdistillatiekader dat encoder-decodermodellen in staat stelt om capaciteiten van grote schaalbare alleen-decoderdocenten te benutten, terwijl ze hun architecturale voordelen behouden, met een verbetering van maximaal 6 gemiddelde prestatiepunten over diverse taken, met aanzienlijke winsten bij asymmetrische sequentietaken waar invoer- en uitvoerdistributies kunnen profiteren van verschillende verwerkingsbenaderingen. In combinatie met moderne ontwikkelingen zoals RoBu (Rotary Positional Embeddings) en Vision-encoders, toont ons systematisch onderzoek aan dat encoder-decoderarchitecturen een praktischer pad bieden voor het implementeren van capabele taalmodellen in omgevingen met beperkte middelen. Onze bevindingen dagen de heersende trend van alleen decoder-schaling uit, waarbij wordt aangetoond dat architecturale keuzes steeds crucialer worden naarmate de parameterbudgetten afnemen, met name voor on-device en edge-implementaties waar computationele efficiëntie van essentieel belang is.

English

The dominance of large decoder-only language models has overshadowed encoder-decoder architectures, despite their fundamental efficiency advantages in sequence processing. For small language models (SLMs) - those with 1 billion parameters or fewer - our systematic analysis across GPU, CPU, and NPU platforms reveals that encoder-decoder architectures achieve 47% lower first-token latency and 4.7x higher throughput compared to decoder-only models on edge devices. These gains may be attributed to encoder-decoder's one-time input processing and efficient separation of understanding and generation phases. We introduce a novel knowledge distillation framework that enables encoder-decoder models to leverage capabilities from large scalable decoder-only teachers while preserving their architectural advantages, achieving up to 6 average performance points improvement across diverse tasks, with significant gains in asymmetric sequence tasks where input and output distributions can benefit from different processing approaches. When combined with modern advances like Rotary Positional Embeddings (RoPE) and Vision encoders, our systematic investigation demonstrates that encoder-decoder architectures provide a more practical path toward deploying capable language models in resource-constrained environments. Our findings challenge the prevailing trend toward decoder-only scaling, showing that architectural choices become increasingly crucial as parameter budgets decrease, particularly for on-device and edge deployments where computational efficiency is paramount.

Terugkeer van de Coder: Het maximaliseren van de parameter-efficiëntie voor SLM's.

Return of the Encoder: Maximizing Parameter Efficiency for SLMs

Samenvatting

Summary

Support