Liger: Линеаризация крупных языковых моделей в гейтированные рекуррентные структуры
Liger: Linearizing Large Language Models to Gated Recurrent Structures
March 3, 2025
Авторы: Disen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng
cs.AI
Аннотация
Трансформеры с линейным рекуррентным моделированием обеспечивают обучение за линейное время и вывод с постоянным использованием памяти. Несмотря на продемонстрированную эффективность и производительность, предварительное обучение таких нестандартных архитектур с нуля остается затратным и рискованным. Линеаризация больших языковых моделей (LLM) преобразует предварительно обученные стандартные модели в линейные рекуррентные структуры, что позволяет более эффективно их развертывать. Однако современные методы линеаризации обычно вводят дополнительные модули карт признаков, которые требуют обширной тонкой настройки, и игнорируют механизмы гейтинга, используемые в передовых линейных рекуррентных моделях. Для решения этих проблем в данной статье представлен Liger, сокращение от Linearizing LLMs to gated recurrent structures. Liger — это новый подход для преобразования предварительно обученных LLM в линейные рекуррентные модели с гейтингом без добавления дополнительных параметров. Он перепрофилирует веса предварительно обученной матрицы ключей для создания разнообразных механизмов гейтинга, что способствует формированию различных рекуррентных структур с гейтингом, избегая необходимости обучения дополнительных компонентов с нуля. Используя легковесную тонкую настройку с помощью Low-Rank Adaptation (LoRA), Liger восстанавливает производительность линеаризованных рекуррентных моделей с гейтингом до уровня исходных LLM. Кроме того, мы представляем Liger Attention, внутрислойный гибридный механизм внимания, который значительно восстанавливает 93% производительности LLM на основе трансформеров при использовании 0,02% токенов предварительного обучения в процессе линеаризации, достигая конкурентоспособных результатов на множестве бенчмарков, что подтверждено на моделях с параметрами от 1B до 8B. Код доступен по адресу https://github.com/OpenSparseLLMs/Linearization.
English
Transformers with linear recurrent modeling offer linear-time training and
constant-memory inference. Despite their demonstrated efficiency and
performance, pretraining such non-standard architectures from scratch remains
costly and risky. The linearization of large language models (LLMs) transforms
pretrained standard models into linear recurrent structures, enabling more
efficient deployment. However, current linearization methods typically
introduce additional feature map modules that require extensive fine-tuning and
overlook the gating mechanisms used in state-of-the-art linear recurrent
models. To address these issues, this paper presents Liger, short for
Linearizing LLMs to gated recurrent structures. Liger is a novel approach for
converting pretrained LLMs into gated linear recurrent models without adding
extra parameters. It repurposes the pretrained key matrix weights to construct
diverse gating mechanisms, facilitating the formation of various gated
recurrent structures while avoiding the need to train additional components
from scratch. Using lightweight fine-tuning with Low-Rank Adaptation (LoRA),
Liger restores the performance of the linearized gated recurrent models to
match that of the original LLMs. Additionally, we introduce Liger Attention, an
intra-layer hybrid attention mechanism, which significantly recovers 93\% of
the Transformer-based LLM at 0.02\% pre-training tokens during the
linearization process, achieving competitive results across multiple
benchmarks, as validated on models ranging from 1B to 8B parameters. Code is
available at https://github.com/OpenSparseLLMs/Linearization.Summary
AI-Generated Summary