Сделать LoRA Великим Снова: Повышение Эффективности LoRA с Адаптивными Сингулярными Значениями и Оптимизацией Выравнивания Микса Экспертов

Аннотация

Хотя метод адаптации низкого ранга (Low-Rank Adaptation, LoRA) обеспечивает эффективную настройку параметров для больших языковых моделей (Large Language Models, LLM), его производительность часто не дотягивает до полной настройки (Full Fine-Tuning, Full FT). Нынешние методы оптимизации LoRA начинают с инициализации статическими подмножествами сингулярного разложения (Singular Value Decomposition, SVD), что приводит к неоптимальному использованию предварительных знаний. Другим путем улучшения LoRA является внедрение архитектуры смеси экспертов (Mixture-of-Experts, MoE). Однако недопустимое выравнивание весов и сложная динамика градиентов затрудняют применение SVD перед архитектурой LoRA MoE. Для устранения этих проблем мы предлагаем Great LoRA Mixture-of-Expert (GOAT), фреймворк, который (1) адаптивно интегрирует соответствующие априорные знания с использованием структурированной по SVD MoE и (2) выравнивает оптимизацию с полностью настроенной MoE путем вывода теоретического коэффициента масштабирования. Мы демонстрируем, что правильное масштабирование, без изменения архитектуры или алгоритмов обучения, повышает эффективность и производительность LoRA MoE. Эксперименты на 25 наборах данных, включая понимание естественного языка, здравый смысл, классификацию изображений и генерацию естественного языка, показывают ведущую производительность GOAT, сокращая разрыв с Full FT.

English

While Low-Rank Adaptation (LoRA) enables parameter-efficient fine-tuning for Large Language Models (LLMs), its performance often falls short of Full Fine-Tuning (Full FT). Current methods optimize LoRA by initializing with static singular value decomposition (SVD) subsets, leading to suboptimal leveraging of pre-trained knowledge. Another path for improving LoRA is incorporating a Mixture-of-Experts (MoE) architecture. However, weight misalignment and complex gradient dynamics make it challenging to adopt SVD prior to the LoRA MoE architecture. To mitigate these issues, we propose Great LoRA Mixture-of-Expert (GOAT), a framework that (1) adaptively integrates relevant priors using an SVD-structured MoE, and (2) aligns optimization with full fine-tuned MoE by deriving a theoretical scaling factor. We demonstrate that proper scaling, without modifying the architecture or training algorithms, boosts LoRA MoE's efficiency and performance. Experiments across 25 datasets, including natural language understanding, commonsense reasoning, image classification, and natural language generation, demonstrate GOAT's state-of-the-art performance, closing the gap with Full FT.

Сделать LoRA Великим Снова: Повышение Эффективности LoRA с Адаптивными Сингулярными Значениями и Оптимизацией Выравнивания Микса Экспертов

Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Аннотация

Summary

Support