RandLoRA: 대규모 모델의 완전한 순위 매개변수 효율적인 미세 조정
RandLoRA: Full-rank parameter-efficient fine-tuning of large models
February 3, 2025
저자: Paul Albert, Frederic Z. Zhang, Hemanth Saratchandran, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad
cs.AI
초록
Low-Rank Adaptation (LoRA) 및 해당 변형들은 대규모 transformer 네트워크의 학습 가능한 매개변수 및 메모리 요구 사항을 줄이면서 fine-tuning 성능을 유지하는 데 인상적인 결과를 보여주었습니다. 그러나 가중치 업데이트의 저랭크 특성은 fine-tuned 모델의 표현 능력을 본질적으로 제한하여 복잡한 작업에서 성능을 저하시킬 수 있습니다. 이는 중요한 질문을 던집니다: LoRA와 표준 fine-tuning 간의 성능 차이가 관측될 때, 학습 가능한 매개변수의 수가 감소한 것인지 랭크 결핍인지는 무엇인가요? 본 논문은 이 질문에 대답하기 위해 RandLoRA를 소개하여, 학습 가능하지 않은 낮은 랭크 무작위 행렬의 학습된 선형 조합을 사용하여 full-rank 업데이트를 수행하는 매개 효율적인 방법을 제시합니다. 우리의 방법은 최적화를 고정된 무작위 행렬에 적용된 대각 스케일링 행렬로 제한함으로써 학습 가능한 매개변수의 수를 효과적으로 제한합니다. 이를 통해 우리는 훈련 중에 낮은 랭크 제한을 극복하면서 매개변수 및 메모리 효율성을 유지할 수 있습니다. 시각, 언어 및 시각-언어 벤치마크를 통해 체계적으로 LoRA 및 기존의 무작위 기저 방법의 한계를 평가합니다. 우리의 연구 결과는 full-rank 업데이트가 시각 및 언어 작업에서 개별적으로 유익하며, 시각-언어 작업에서는 특히 표준 fine-tuning과 LoRA 간의 성능 차이를 크게 줄이는 - 때로는 제거하는 - 효과를 보여주어 그 효과를 입증합니다.
English
Low-Rank Adaptation (LoRA) and its variants have shown impressive results in
reducing the number of trainable parameters and memory requirements of large
transformer networks while maintaining fine-tuning performance. However, the
low-rank nature of the weight update inherently limits the representation power
of fine-tuned models, potentially compromising performance on complex tasks.
This raises a critical question: when a performance gap between LoRA and
standard fine-tuning is observed, is it due to the reduced number of trainable
parameters or the rank deficiency? This paper aims to answer this question by
introducing RandLoRA, a parameter-efficient method that performs full-rank
updates using a learned linear combinations of low-rank, non-trainable random
matrices. Our method limits the number of trainable parameters by restricting
optimization to diagonal scaling matrices applied to the fixed random matrices.
This allows us to effectively overcome the low-rank limitations while
maintaining parameter and memory efficiency during training. Through extensive
experimentation across vision, language, and vision-language benchmarks, we
systematically evaluate the limitations of LoRA and existing random basis
methods. Our findings reveal that full-rank updates are beneficial across
vision and language tasks individually, and even more so for vision-language
tasks, where RandLoRA significantly reduces -- and sometimes eliminates -- the
performance gap between standard fine-tuning and LoRA, demonstrating its
efficacy.Summary
AI-Generated Summary