Сделать LoRA Великим Снова: Повышение Эффективности LoRA с Адаптивными Сингулярными Значениями и Оптимизацией Выравнивания Микса Экспертов
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment
February 24, 2025
Авторы: Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng
cs.AI
Аннотация
Хотя метод адаптации низкого ранга (Low-Rank Adaptation, LoRA) обеспечивает эффективную настройку параметров для больших языковых моделей (Large Language Models, LLM), его производительность часто не дотягивает до полной настройки (Full Fine-Tuning, Full FT). Нынешние методы оптимизации LoRA начинают с инициализации статическими подмножествами сингулярного разложения (Singular Value Decomposition, SVD), что приводит к неоптимальному использованию предварительных знаний. Другим путем улучшения LoRA является внедрение архитектуры смеси экспертов (Mixture-of-Experts, MoE). Однако недопустимое выравнивание весов и сложная динамика градиентов затрудняют применение SVD перед архитектурой LoRA MoE. Для устранения этих проблем мы предлагаем Great LoRA Mixture-of-Expert (GOAT), фреймворк, который (1) адаптивно интегрирует соответствующие априорные знания с использованием структурированной по SVD MoE и (2) выравнивает оптимизацию с полностью настроенной MoE путем вывода теоретического коэффициента масштабирования. Мы демонстрируем, что правильное масштабирование, без изменения архитектуры или алгоритмов обучения, повышает эффективность и производительность LoRA MoE. Эксперименты на 25 наборах данных, включая понимание естественного языка, здравый смысл, классификацию изображений и генерацию естественного языка, показывают ведущую производительность GOAT, сокращая разрыв с Full FT.
English
While Low-Rank Adaptation (LoRA) enables parameter-efficient fine-tuning for
Large Language Models (LLMs), its performance often falls short of Full
Fine-Tuning (Full FT). Current methods optimize LoRA by initializing with
static singular value decomposition (SVD) subsets, leading to suboptimal
leveraging of pre-trained knowledge. Another path for improving LoRA is
incorporating a Mixture-of-Experts (MoE) architecture. However, weight
misalignment and complex gradient dynamics make it challenging to adopt SVD
prior to the LoRA MoE architecture. To mitigate these issues, we propose
Great LoRA Mixture-of-Expert
(GOAT), a framework that (1) adaptively integrates relevant priors using an
SVD-structured MoE, and (2) aligns optimization with full fine-tuned MoE by
deriving a theoretical scaling factor. We demonstrate that proper scaling,
without modifying the architecture or training algorithms, boosts LoRA MoE's
efficiency and performance. Experiments across 25 datasets, including natural
language understanding, commonsense reasoning, image classification, and
natural language generation, demonstrate GOAT's state-of-the-art performance,
closing the gap with Full FT.Summary
AI-Generated Summary