Liger: Линеаризация крупных языковых моделей в гейтированные рекуррентные структуры

Аннотация

Трансформеры с линейным рекуррентным моделированием обеспечивают обучение за линейное время и вывод с постоянным использованием памяти. Несмотря на продемонстрированную эффективность и производительность, предварительное обучение таких нестандартных архитектур с нуля остается затратным и рискованным. Линеаризация больших языковых моделей (LLM) преобразует предварительно обученные стандартные модели в линейные рекуррентные структуры, что позволяет более эффективно их развертывать. Однако современные методы линеаризации обычно вводят дополнительные модули карт признаков, которые требуют обширной тонкой настройки, и игнорируют механизмы гейтинга, используемые в передовых линейных рекуррентных моделях. Для решения этих проблем в данной статье представлен Liger, сокращение от Linearizing LLMs to gated recurrent structures. Liger — это новый подход для преобразования предварительно обученных LLM в линейные рекуррентные модели с гейтингом без добавления дополнительных параметров. Он перепрофилирует веса предварительно обученной матрицы ключей для создания разнообразных механизмов гейтинга, что способствует формированию различных рекуррентных структур с гейтингом, избегая необходимости обучения дополнительных компонентов с нуля. Используя легковесную тонкую настройку с помощью Low-Rank Adaptation (LoRA), Liger восстанавливает производительность линеаризованных рекуррентных моделей с гейтингом до уровня исходных LLM. Кроме того, мы представляем Liger Attention, внутрислойный гибридный механизм внимания, который значительно восстанавливает 93% производительности LLM на основе трансформеров при использовании 0,02% токенов предварительного обучения в процессе линеаризации, достигая конкурентоспособных результатов на множестве бенчмарков, что подтверждено на моделях с параметрами от 1B до 8B. Код доступен по адресу https://github.com/OpenSparseLLMs/Linearization.

English

Transformers with linear recurrent modeling offer linear-time training and constant-memory inference. Despite their demonstrated efficiency and performance, pretraining such non-standard architectures from scratch remains costly and risky. The linearization of large language models (LLMs) transforms pretrained standard models into linear recurrent structures, enabling more efficient deployment. However, current linearization methods typically introduce additional feature map modules that require extensive fine-tuning and overlook the gating mechanisms used in state-of-the-art linear recurrent models. To address these issues, this paper presents Liger, short for Linearizing LLMs to gated recurrent structures. Liger is a novel approach for converting pretrained LLMs into gated linear recurrent models without adding extra parameters. It repurposes the pretrained key matrix weights to construct diverse gating mechanisms, facilitating the formation of various gated recurrent structures while avoiding the need to train additional components from scratch. Using lightweight fine-tuning with Low-Rank Adaptation (LoRA), Liger restores the performance of the linearized gated recurrent models to match that of the original LLMs. Additionally, we introduce Liger Attention, an intra-layer hybrid attention mechanism, which significantly recovers 93\% of the Transformer-based LLM at 0.02\% pre-training tokens during the linearization process, achieving competitive results across multiple benchmarks, as validated on models ranging from 1B to 8B parameters. Code is available at https://github.com/OpenSparseLLMs/Linearization.

Liger: Линеаризация крупных языковых моделей в гейтированные рекуррентные структуры

Liger: Linearizing Large Language Models to Gated Recurrent Structures

Аннотация

Summary

Support