LoLDU: 하위-대각-상부 분해를 통한 저랭크 적응을 통한 매개변수 효율적인 미세 조정

LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning

October 17, 2024
저자: Yiming Shi, Jiwei Wei, Yujia Wu, Ran Ran, Chengwei Sun, Shiyuan He, Yang Yang
cs.AI

초록

모델 규모의 급격한 증가로 인해 세밀한 조정을 위해 상당한 계산 자원이 필요해졌습니다. 기존의 Low-Rank Adaptation (LoRA)과 같은 접근 방식은 전체 세밀한 조정에서 큰 업데이트된 매개변수를 처리하는 문제를 해결하려고 노력해 왔습니다. 그러나 LoRA는 업데이트된 가중치를 근사하기 위해 난수 초기화와 저랭크 행렬의 최적화를 활용하는데, 이는 최적 수렴과 전체 세밀한 조정과 비교했을 때 정확도 격차를 초래할 수 있습니다. 이러한 문제를 해결하기 위해 우리는 LoLDU라는 Parameter-Efficient Fine-Tuning (PEFT) 접근 방식을 제안합니다. 이 방식은 일반적인 PEFT 방법에 비해 훈련 가능한 매개변수를 2600배 줄이면서 유사한 성능을 유지합니다. LoLDU는 빠른 수렴과 직교성을 위해 저랭크 행렬을 초기화하기 위해 Lower-Diag-Upper Decomposition (LDU)를 활용합니다. 우리는 스케일 변환을 위해 대각 행렬을 최적화하는 데 초점을 맞추었습니다. 우리의 최신 지식에 따르면, LoLDU는 모든 PEFT 접근 방식 중에서 가장 적은 매개변수를 가지고 있습니다. 우리는 LLaMA2, RoBERTa, ViT, 그리고 Stable Diffusion과 같은 여러 모델 유형을 사용하여 4개의 명령 따르기 데이터셋, 6개의 자연어 이해 (NLU) 데이터셋, 8개의 이미지 분류 데이터셋, 그리고 이미지 생성 데이터셋에서 광범위한 실험을 수행하였으며, 포괄적이고 상세한 분석을 제공하였습니다. 우리의 오픈 소스 코드는 https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}에서 확인할 수 있습니다.
English
The rapid growth of model scale has necessitated substantial computational resources for fine-tuning. Existing approach such as Low-Rank Adaptation (LoRA) has sought to address the problem of handling the large updated parameters in full fine-tuning. However, LoRA utilize random initialization and optimization of low-rank matrices to approximate updated weights, which can result in suboptimal convergence and an accuracy gap compared to full fine-tuning. To address these issues, we propose LoLDU, a Parameter-Efficient Fine-Tuning (PEFT) approach that significantly reduces trainable parameters by 2600 times compared to regular PEFT methods while maintaining comparable performance. LoLDU leverages Lower-Diag-Upper Decomposition (LDU) to initialize low-rank matrices for faster convergence and orthogonality. We focus on optimizing the diagonal matrix for scaling transformations. To the best of our knowledge, LoLDU has the fewest parameters among all PEFT approaches. We conducted extensive experiments across 4 instruction-following datasets, 6 natural language understanding (NLU) datasets, 8 image classification datasets, and image generation datasets with multiple model types (LLaMA2, RoBERTa, ViT, and Stable Diffusion), providing a comprehensive and detailed analysis. Our open-source code can be accessed at https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}.

Summary

AI-Generated Summary

PDF62November 16, 2024