ChatPaper.aiChatPaper

SPARC: LLMs에서 강건한 지속적 학습을 위한 부분 공간 인식 프롬프트 적응

SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs

February 5, 2025
저자: Dinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi
cs.AI

초록

대규모 언어 모델(LLM)을 위한 가벼운 지속적 학습 프레임워크인 SPARC를 제안합니다. 이 프레임워크는 주어진 테스크에 대한 효율적인 적응을 가능하게 하는 저차원 공간에서 프롬프트 튜닝을 통해 구현됩니다. 주성분 분석(PCA)을 활용하여 훈련 데이터의 압축된 부분 공간을 식별합니다. 이 저차원 공간에서 프롬프트를 최적화함으로써 훈련 효율성이 향상되며, 가장 관련성 높은 특징에 업데이트를 집중시키면서 계산 부담을 줄입니다. 또한, 모델의 내부 구조가 변경되지 않기 때문에 사전 훈련으로 얻은 폭넓은 지식이 완전히 보존되어 이전에 학습한 정보가 적응 중에 손상되지 않도록 합니다. 우리의 방법은 모델의 매개변수 중 0.04%만을 세밀 조정함으로써 과업 증분 및 도메인 증분 지속적 학습 설정에서 높은 지식 보존을 달성합니다. 또한 LoRA를 통합함으로써 계산 제약 조건에 대한 적응성을 향상시켜 정확도와 훈련 비용 사이의 균형을 제공합니다. SuperGLUE 벤치마크 실험에서 우리의 PCA 기반 프롬프트 튜닝과 LoRA를 결합한 결과는 모델의 매개변수 중 1%만을 활용하여 정확도를 향상시키면서 전체 지식 보존을 유지함을 입증합니다. 이러한 결과는 LLM에서의 지속적 학습에 대한 확장 가능하고 자원 효율적인 해결책으로 우리의 접근 방식을 확립합니다.
English
We propose SPARC, a lightweight continual learning framework for large language models (LLMs) that enables efficient task adaptation through prompt tuning in a lower-dimensional space. By leveraging principal component analysis (PCA), we identify a compact subspace of the training data. Optimizing prompts in this lower-dimensional space enhances training efficiency, as it focuses updates on the most relevant features while reducing computational overhead. Furthermore, since the model's internal structure remains unaltered, the extensive knowledge gained from pretraining is fully preserved, ensuring that previously learned information is not compromised during adaptation. Our method achieves high knowledge retention in both task-incremental and domain-incremental continual learning setups while fine-tuning only 0.04% of the model's parameters. Additionally, by integrating LoRA, we enhance adaptability to computational constraints, allowing for a tradeoff between accuracy and training cost. Experiments on the SuperGLUE benchmark demonstrate that our PCA-based prompt tuning combined with LoRA maintains full knowledge retention while improving accuracy, utilizing only 1% of the model's parameters. These results establish our approach as a scalable and resource-efficient solution for continual learning in LLMs.

Summary

AI-Generated Summary

PDF22February 11, 2025