KaSA: Adattamento della Singular Value consapevole della conoscenza dei grandi modelli linguistici
KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models
December 8, 2024
Autori: Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang
cs.AI
Abstract
Le dimensioni crescenti dei grandi modelli di linguaggio (LLM) comportano un notevole sovraccarico computazionale e utilizzo della memoria quando si adattano tali modelli a compiti o domini specifici. Diversi metodi efficienti dei parametri per il fine-tuning (PEFT) sono stati ideati per attenuare tali sfide, addestrando un piccolo insieme di parametri per gli aggiornamenti specifici del compito dei pesi del modello. Tra i metodi PEFT, LoRA si distingue per la sua semplicità ed efficienza, ispirando lo sviluppo di una serie di varianti. Tuttavia, LoRA e i suoi successori ignorano le conoscenze rumorose o non rilevanti per il compito mirato, danneggiando in modo significativo le prestazioni del modello e portando a sub-ottimalità. Per affrontare questa limitazione, presentiamo Knowledge-aware Singular-value Adaptation (KaSA), un metodo PEFT che sfrutta la decomposizione ai valori singolari (SVD) con valori singolari consapevoli della conoscenza per attivare dinamicamente la conoscenza in base alla sua rilevanza per il compito in questione. Conduciamo ampi esperimenti su una serie di LLM su compiti che spaziano dalla comprensione del linguaggio naturale (NLU), alla generazione (NLG), al seguire le istruzioni e al ragionamento del senso comune. I risultati sperimentali dimostrano che KaSA supera costantemente FFT e 14 baselines PEFT popolari su 16 benchmark e 4 set di dati sintetici, sottolineando l'efficacia e l'adattabilità del nostro metodo. Il codice sorgente del nostro metodo è disponibile su https://github.com/juyongjiang/KaSA.
English
The increasing sizes of large language models (LLMs) result in significant
computational overhead and memory usage when adapting these models to specific
tasks or domains. Various parameter-efficient fine-tuning (PEFT) methods have
been devised to mitigate these challenges by training a small set of parameters
for the task-specific updates of the model weights. Among PEFT methods, LoRA
stands out for its simplicity and efficiency, inspiring the development of a
series of variants. However, LoRA and its successors disregard the knowledge
that is noisy or irrelevant to the targeted task, detrimentally impacting model
performance and leading to suboptimality. To address this limitation, we
introduce Knowledge-aware Singular-value Adaptation (KaSA), a PEFT method that
leverages singular value decomposition (SVD) with knowledge-aware singular
values to dynamically activate knowledge based on its relevance to the task at
hand. We conduct extensive experiments across a range of LLMs on tasks spanning
natural language understanding (NLU), generation (NLG), instruction following,
and commonsense reasoning. The experimental results demonstrate that KaSA
consistently outperforms FFT and 14 popular PEFT baselines across 16 benchmarks
and 4 synthetic datasets, underscoring our method's efficacy and adaptability.
The source code of our method is available at
https://github.com/juyongjiang/KaSA.Summary
AI-Generated Summary