KaSA: 대규모 언어 모델의 지식 인식 특이값 적응
KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models
December 8, 2024
저자: Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang
cs.AI
초록
대형 언어 모델(LLMs)의 증가하는 크기는 이러한 모델을 특정 작업이나 도메인에 적응시킬 때 상당한 계산 오버헤드와 메모리 사용량을 초래합니다. 다양한 매개변수 효율적 미세 조정(PEFT) 방법들은 작업별 업데이트를 위해 모델 가중치의 작은 매개변수 집합을 훈련시킴으로써 이러한 도전에 대처하기 위해 고안되었습니다. PEFT 방법 중에서 LoRA는 그 간결함과 효율성으로 두드러지며, 일련의 변형 개발에 영감을 주었습니다. 그러나 LoRA와 그 후속작들은 대상 작업에 대해 소음이나 관련성이 없는 지식을 무시하여 모델 성능에 해를 끼치고 최적화를 방해합니다. 이 한계를 극복하기 위해 우리는 지식인식 특이값 적응(KaSA)을 소개합니다. 이는 특이값 분해(SVD)를 활용하여 작업과 관련성에 따라 지식을 동적으로 활성화하는 PEFT 방법입니다. 우리는 자연어 이해(NLU), 생성(NLG), 지시 따르기, 상식적 추론을 포함하는 작업에 걸쳐 다양한 LLMs에서 광범위한 실험을 실시했습니다. 실험 결과는 KaSA가 16개의 벤치마크와 4개의 합성 데이터셋에서 FFT 및 14가지 인기 있는 PEFT 기준선을 일관되게 능가함을 보여주며, 우리 방법의 효과성과 적응성을 강조합니다. 우리 방법의 소스 코드는 https://github.com/juyongjiang/KaSA에서 확인할 수 있습니다.
English
The increasing sizes of large language models (LLMs) result in significant
computational overhead and memory usage when adapting these models to specific
tasks or domains. Various parameter-efficient fine-tuning (PEFT) methods have
been devised to mitigate these challenges by training a small set of parameters
for the task-specific updates of the model weights. Among PEFT methods, LoRA
stands out for its simplicity and efficiency, inspiring the development of a
series of variants. However, LoRA and its successors disregard the knowledge
that is noisy or irrelevant to the targeted task, detrimentally impacting model
performance and leading to suboptimality. To address this limitation, we
introduce Knowledge-aware Singular-value Adaptation (KaSA), a PEFT method that
leverages singular value decomposition (SVD) with knowledge-aware singular
values to dynamically activate knowledge based on its relevance to the task at
hand. We conduct extensive experiments across a range of LLMs on tasks spanning
natural language understanding (NLU), generation (NLG), instruction following,
and commonsense reasoning. The experimental results demonstrate that KaSA
consistently outperforms FFT and 14 popular PEFT baselines across 16 benchmarks
and 4 synthetic datasets, underscoring our method's efficacy and adaptability.
The source code of our method is available at
https://github.com/juyongjiang/KaSA.Summary
AI-Generated Summary