AdaptiVocab: Miglioramento dell'efficienza dei LLM in domini specifici attraverso l'adattamento leggero del vocabolario

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un'impressionante versatilità come modelli generici. Tuttavia, la loro ampia applicabilità comporta un elevato sovraccarico computazionale, in particolare nel decoding auto-regressivo, dove ogni passaggio richiede un forward pass. In contesti specifici per dominio, le capacità generali non sono necessarie e possono essere scambiate per efficienza. In questo lavoro, adottiamo una prospettiva innovativa sull'adattamento di dominio, riducendo la latenza e i costi computazionali adattando il vocabolario a domini di interesse specifici. Introduciamo AdaptiVocab, un approccio end-to-end per l'adattamento del vocabolario, progettato per migliorare l'efficienza degli LLM in domini a basso contenuto di risorse. AdaptiVocab può essere applicato a qualsiasi tokenizer e architettura, modificando il vocabolario sostituendo i token con token basati su n-grammi specifici per dominio, riducendo così il numero di token necessari sia per l'elaborazione dell'input che per la generazione dell'output. AdaptiVocab inizializza i nuovi embedding di n-token utilizzando una combinazione ponderata esponenzialmente degli embedding esistenti e impiega una fase di fine-tuning leggera che può essere eseguita in modo efficiente su una singola GPU. Valutiamo due LLM da 7B in tre domini di nicchia, valutando l'efficienza, la qualità della generazione e le prestazioni nelle attività finali. I nostri risultati mostrano che AdaptiVocab riduce l'uso dei token di oltre il 25% senza compromettere le prestazioni.

English

Large Language Models (LLMs) have shown impressive versatility as general purpose models. However, their broad applicability comes at a high-cost computational overhead, particularly in auto-regressive decoding where each step requires a forward pass. In domain-specific settings, general-purpose capabilities are unnecessary and can be exchanged for efficiency. In this work, we take a novel perspective on domain adaptation, reducing latency and computational costs by adapting the vocabulary to focused domains of interest. We introduce AdaptiVocab, an end-to-end approach for vocabulary adaptation, designed to enhance LLM efficiency in low-resource domains. AdaptiVocab can be applied to any tokenizer and architecture, modifying the vocabulary by replacing tokens with domain-specific n-gram-based tokens, thereby reducing the number of tokens required for both input processing and output generation. AdaptiVocab initializes new n-token embeddings using an exponentially weighted combination of existing embeddings and employs a lightweight fine-tuning phase that can be efficiently performed on a single GPU. We evaluate two 7B LLMs across three niche domains, assessing efficiency, generation quality, and end-task performance. Our results show that AdaptiVocab reduces token usage by over 25% without compromising performance

AdaptiVocab: Miglioramento dell'efficienza dei LLM in domini specifici attraverso l'adattamento leggero del vocabolario

AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation

Abstract

Summary

Support

Support