분산 스케치 LoRA: 장치 내 협업을 통한 대규모 언어 모델의 세밀 조정
Federated Sketching LoRA: On-Device Collaborative Fine-Tuning of Large Language Models
January 31, 2025
저자: Wenzhi Fang, Dong-Jun Han, Liangqi Yuan, Seyyedali Hosseinalipour, Christopher G. Brinton
cs.AI
초록
대규모 언어 모델(LLMs)을 장치에서 세밀 조정하는 것이 점점 더 많은 관심을 끌고 있습니다. 최근 연구들은 저랭크 적응(LoRA) 기술을 연합 세밀 조정과 융합하여 장치 모델 크기와 데이터 부족으로 인한 어려움을 완화하고 있습니다. 그럼에도 불구하고, 계산 자원의 이질성은 여전히 중요한 병목 현상으로 남아 있습니다. 일반적으로 고랭크 모듈이 성능을 향상시키지만, 다양한 장치 성능은 LoRA의 적용 가능한 랭크 범위를 제한합니다. 이 문제를 해결하려는 기존 방법들은 분석적 근거가 부족하거나 추가적인 계산 부담을 가하며, 효율적이고 이론적으로 기반을 둔 해결책에 큰 간극을 남겨 두고 있습니다. 이러한 도전에 대처하기 위해, 우리는 연합 스케치 LoRA (FSLoRA)를 제안합니다. 이는 서버가 유지하는 전역 LoRA 모듈의 하위 행렬을 장치가 선택적으로 업데이트할 수 있도록 스케치 메커니즘을 활용합니다. 장치에서 하위 행렬의 랭크를 결정하는 스케치 비율을 조정함으로써, FSLoRA는 장치별 통신 및 계산 제약 조건에 유연하게 적응합니다. 우리는 FSLoRA의 수렴 속도에 영향을 미치는 스케치 비율을 특징 짓는 엄격한 수렴 분석을 제공합니다. 다양한 데이터셋과 LLM 모델에 대한 포괄적인 실험을 통해, 다양한 기준선과 비교하여 FSLoRA의 우수한 성능을 입증합니다.
English
Fine-tuning large language models (LLMs) on devices is attracting increasing
interest. Recent works have fused low-rank adaptation (LoRA) techniques with
federated fine-tuning to mitigate challenges associated with device model sizes
and data scarcity. Still, the heterogeneity of computational resources remains
a critical bottleneck: while higher-rank modules generally enhance performance,
varying device capabilities constrain LoRA's feasible rank range. Existing
approaches attempting to resolve this issue either lack analytical
justification or impose additional computational overhead, leaving a wide gap
for an efficient and theoretically-grounded solution. To address these
challenges, we propose federated sketching LoRA (FSLoRA), which leverages a
sketching mechanism to enable devices to selectively update submatrices of
global LoRA modules maintained by the server. By adjusting the sketching
ratios, which determine the ranks of the submatrices on the devices, FSLoRA
flexibly adapts to device-specific communication and computational constraints.
We provide a rigorous convergence analysis of FSLoRA that characterizes how the
sketching ratios affect the convergence rate. Through comprehensive experiments
on multiple datasets and LLM models, we demonstrate FSLoRA's superior
performance compared to various baselines.Summary
AI-Generated Summary